ISSN在线(2320 - 9801)打印(2320 - 9798)
信息提取的研究工具在线英文报纸(PDF):比较分析
信息检索的任务从e-newspapers检索相关和有用的信息。电子报纸是传统报纸的电子副本。E-newspapers正变得越来越流行,因为简单方便的访问。报纸及时的信息的来源。这些文件包括新闻和几个独立信息的文章。它也是有趣的,许多报纸新闻在同一主题不同的观点。在这个快速变化的时代,阅读多个报纸是不可能的。因此,它是一个重要的快速总结一篇文章从不同的报纸收集并将其呈现给读者以紧凑简洁的方式在不损害的结构和格式的消息。系统实现这个任务应该解析e-newspapers可用以PDF格式,转换为文本格式。其次,数据挖掘技术应用于识别和总结的文章从不同的报纸。 This survey, focuses on article identification methods and popular extraction tools used for extracting the contents of e-newspapers for conversion from PDF to text format. A comparative study on extraction tools based on the source type, programming language and working characteristics is also presented.
m . Hanumanthappa Deepa t . Nagalavi Manish库马尔