石头:2229 - 371 x
Lokesh库马尔1 *卡尔拉,Parul Bhatia2
|
通讯作者:Lokesh Kumar电子邮件:lokesh.kumar2@student.amity.edu, pkbhatia@amity.edu 2 |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章全球研究计算机科学杂志》上
随着技术的进步,越来越多的数字形式的数据可用。其中,大部分的数据(约。85%)在非结构化的文本形式。文本,因此它已经成为发展的关键技术和算法更好地提取有用的和有趣的信息从大量的文本数据。因此,文本挖掘、信息提取领域已成为热门的研究领域,提取有趣和有用的信息。本文侧重于概念、过程和文本挖掘的应用。
关键字 |
文本挖掘算法,数据挖掘,信息检索,信息提取 |
介绍 |
文本挖掘的定义是一个¢隐藏的非平凡的提取,前所未知的、潜在有用的信息从文本数据(大量的)”[1]。文本挖掘是一个新的领域,试图从自然语言文本中提取有意义的信息。它可以被定义为分析文本中提取信息的过程是非常有用的为一个特定的目的。与数据存储在数据库的类型相比,非结构化的文本,模棱两可,和困难的过程。然而,在现代文化中,文本是最公共的正式的信息交换。文本挖掘通常处理文本的功能是实际的交流信息或意见,和刺激试图从这样的文本自动提取信息很吸引人——即使只是部分成功。 |
文本挖掘与数据挖掘,除了数据挖掘工具[2]是用来处理结构化数据从数据库、文本挖掘也可以处理非结构化或半结构化的数据集,如电子邮件,文本文档和HTML文件等。因此,文本挖掘是一个更好的解决方案。 |
文本挖掘的过程通常是结构化输入文本(通常解析,以及添加一些派生的语言特性和别人的去除,以及随后的插入到一个数据库中),在结构化数据推导模式,和最终输出的评价和解释。 |
图1:文本挖掘的基本过程 |
这个词一个¢文本miningA¢通常用来表示任何系统,分析大量的自然语言文本和检测词汇或语言使用模式可能为了提取有用的(尽管只有可能是正确的)信息。 |
文本挖掘领域 |
文本分析涉及信息检索信息提取,数据挖掘技术包括协会和链接分析、可视化和预测分析[3]。我们的目标是,本质上是把文本(结构化数据)数据(结构化格式)进行分析,通过使用自然语言处理(NLP)方法。 |
图2:文本挖掘领域 |
信息检索(IR): |
信息检索作为一个扩展的文档检索返回的文档处理凝结或中提取特定的信息的用户。因此可以跟着一个文本文档检索总结阶段,关注用户带来的查询,或者使用技术信息提取阶段。红外系统有助于缩小的文件相关的特定问题。 |
作为文本挖掘涉及非常复杂的算法应用到大型文档集合,红外可以显著加快分析[4]通过减少文档的数量进行分析。 |
数据挖掘(DM): |
数据挖掘可以松散描述为寻找数据中的模式。它可以更全面地描述为提取隐藏的,未知的,有用的信息从数据[4]。数据挖掘工具可以预测未来行为和趋势,允许企业进行积极、基于知识的决策。数据挖掘工具可以回答业务问题,历来太耗费时间来解决。他们搜索数据库中隐藏的和未知的模式,寻找关键信息,专家可能错过,因为外面是他们的期望。数据挖掘过程的总体目标就是从一组数据中提取信息并将其转换成一个可以理解的结构进行进一步的使用。 |
自然语言处理(NLP): |
NLP是最古老的之一,在人工智能领域最具挑战性的问题。它是研究人类语言,以便计算机理解自然语言作为人类[5]。 |
NLP研究追求的意义含糊的问题我们如何理解一个句子或一个文档。我们使用的适应症是什么了解谁对谁做了什么[5],或某件事发生时,什么是事实,什么是假设或预测?虽然单词——名词、动词、副词和形容词[5]——是意义的构建块,这是他们的内部彼此相关文档中一个句子的结构,上下文中,我们已经知道什么世界,提供一个文本的真正含义。 |
NLP的角色在文本挖掘系统提供信息提取阶段作为输入。 |
信息提取(IE): |
信息提取的任务自动提取结构化信息从非结构化或半结构化的机器可读的文档。在大多数情况下,这种活动包括处理人类语言文本通过自然语言处理(NLP)。近期活动等多媒体文档处理自动注释和矿业信息的图像/音频/视频可以被视为信息提取和最好的实践和生活IE的例子是谷歌的搜索引擎。 |
它包括定义的一般形式我们感兴趣的信息作为一个或多个模板,用于指导提取过程。即系统极大地依赖于由NLP系统生成的数据。 |
文本挖掘是什么? |
的概念: |
文本挖掘是一个迅速发展的新领域,试图从自然语言文本中提取有意义的信息[6]。可能描述为分析文本中提取信息的过程是非常有用的为一个特定的目的。与存储在数据库的数据相比,非结构化的文本,模棱两可,和困难的过程。然而,在现代文化中,文本是最公共的正式的信息交换。文本挖掘通常处理文本的功能是实际的交流信息或意见,和刺激试图从这样的文本自动提取信息其实如果只是部分成功。使用文本挖掘,使用手工技术,首先在1980年代[7]。很快他们就明白这些手工技术是劳动密集型,因此昂贵。它还需要太多时间手工处理已经日益增长的数量的信息。随着时间的推移,有一个巨大的成功在创建程序自动处理信息,并在过去的几年中有了很大的进步。 |
文本挖掘的研究是一项涉及到各种数学的发展,统计,语言和模式识别技术,允许非结构化信息的自动分析和提取高质量的相关数据,并使文本作为一个整体更好的搜索。 |
一个文本文档包含字符组成单词,可以进一步结合生成的短语。这些都是语法属性一起代表已经定义类别,概念,感官或意义[7]。文本挖掘必须识别、提取和使用的信息。而不是寻找的话,我们可以搜索语义模式,因此搜索在一个更高的水平 |
过程: |
文本挖掘涉及一系列活动被执行以有效地挖掘信息。这些活动包括: |
文本预处理: |
它包括一系列步骤如图3所示: |
图3。活动/文本挖掘的过程 |
(一个)。文本清理: |
文本清理意味着移除任何不必要的或不需要的信息,如从web页面,删除广告规范化文本从二进制格式转换,处理表,数据和公式。 |
(b)标记: |
分词仅仅是通过分割文本空格和标点符号,不属于缩写发现前一步。 |
(c)词性标记: |
词性(POS)标记意味着字类分配到每个令牌。其输入是由标记化的文本。涂画者不得不应对生词(OOV问题)和模糊的标签式映射。基于规则的方法像ENGTWOL[8]操作)字典包含单词形式连同相关的POS标签和形态和句法功能和b)上下文敏感规则来选择合适的标签在应用程序。 |
文本转换(属性代): |
一个文本文档是由它所包含的词(特性)和他们的出现。两个主要方法的文档表示)袋话说b)向量空间。 |
特征选择(属性选择): |
特征选择也称为变量选择,选择重要的功能的一个子集的过程用于创建模型。主要假设当使用特征选择技术是数据包含很多冗余或不相关的特征。冗余特性的没有提供额外的信息。无关的特性提供任何有用的或在任何上下文相关的信息。特征选择技术是更普遍的一个子集的特征提取领域。 |
数据挖掘: |
在这一点上,文本挖掘过程合并与传统的数据挖掘过程。经典的结构化数据库中使用数据挖掘技术,从之前的阶段。 |
评估: |
后评估结果,评估结果可以被丢弃或生成的结果可以作为一个输入序列的下一组。 |
应用程序: |
文本挖掘可应用于多种领域[9]。一些最常见的地区 |
Web挖掘: |
这些天网络包含一个宝藏的信息主题,如人员、公司、组织、产品、等。[10],广泛的兴趣。Web挖掘是数据挖掘技术的应用程序从网上发现隐藏的和未知的模式。 |
Web挖掘是一个活动的识别项隐含在大型文档集合C说,可以用一个映射即C→p [10]。任何基于web的文本挖掘工作的第一步是收集大量的网页有提到一个主题。因此,挑战就不仅要找到所有的主题出现,也过滤掉那些所需的意义。 |
医疗: |
用户对感兴趣的主题积极与他人交换信息或发送请求到web的专家论坛,或所谓的一个¢问doctorA¢服务[11]。每个人都想了解特定疾病(他们),了解新疗法,问第二个意见可以决定一个治疗前。此外,这些专家论坛也代表地震仪医疗和/或心理需求,由现有的卫生保健系统显然不满足[11]。 |
e-consultations电子邮件,请求医疗建议通过互联网已经手动使用定量或定性方法分析[12]。帮助医学专家和充分利用的地震仪功能专家论坛,是很有帮助的自动分类的请求。所以,可以针对特定请求专家甚至回答半自动生成,从而提供完整的监控。通过生成一个¢常见问题(faq)¢类似病人请求[12]及其对应的答案可以聚集,甚至在实际的专家回答。基于机器的分析可以帮助公众更好地处理信息和医学专家给专家的质量反馈。自动分类的业余请求医学专家网络论坛是一个具有挑战性的任务,因为这些请求可能非常长和非结构化混合的结果,例如,个人经历和实验室数据。 |
简历筛选 |
大企业和猎头每天收到求职者成千上万的简历。从简历中提取信息的高精确度和召回并非易事[1]。尽管构成限制域,可以写在简历的格式(如结构表或纯文本),在不同的语言(例如日语和英语)和在不同的文件类型(例如纯文本、PDF、Word等)。此外,写作风格也可以多样化。在最初的手动扫描的简历,招聘人员查找错误,学历,流行语,工作经历,职位,工作频率变化,[13]和其他个人信息。自动提取该信息可以筛选简历的第一步。因此,自动化的过程恢复选择是一项重要任务。 |
总结与展望 |
一般文本挖掘的文本文档的分析提取关键短语、概念等,并准备进一步分析的文本处理和数据挖掘技术。本文讨论的概念、流程和应用程序的文本挖掘,可以应用于许多领域,比如webmin,医疗,简历过滤等。它也启发隐藏的潜力在于文本挖掘领域和动机进行进一步的探索研究。 |
引用 |
|