使用符号数据分析文本分类

Sangeetha N¹
讲师,计算机科学和应用部门、圣阿洛伊修斯学院(自治),芒格洛尔,卡纳塔克邦,印度

文摘

在现实世界中,一个操作文本分类系统通常是放置在环境中human-annotated培训文档的数量很小,尽管成千上万的类。在这种环境下的文本分类器可能是最适当的方法对实际系统而不是其他复杂的学习模型。文本分类器主要用于自由流动的文献基本上是结构化的文本文档和分类都是用一个统计特征加权方法包括预处理——一个方法在文本减少通过消除数字,标点符号,连字符,停止词和高/低频率单词和运用阻止。这种策略不能应用于文本分类领域的非结构化文本描述了广告,因为这些文本描述的属性值。以来所有的文本分类器等分类是有用的文本在一个非结构化的文本文档,介绍了符号数据分析的概念。符号数据分析(SDA)是一个新的领域领域的知识发现和数据管理、多变量相关分析、模式识别、数据库和人工智能。在这个方法的符号数据分析非结构化文本文档的分类,提出了使用一个象征性的数据库和查询过程。提出的技术看来,它是一种高效的技术对文本进行分类介绍了非结构化文本文档,因此为更好的结果在处理非结构化的文本文档

关键字

文本分类、符号数据分析、阻止、关键词提取

介绍

文本是一个重要的和丰富的数据资源,信息和知识。文本分类是自由文本文档分配给一个或多个预定义类别根据其内容

在这里,我们专注于文本分类,这是一个过程,组织一组文档分成不同的类别。分类的目的是建立一套模型能正确地预测不同的类对象[1]。文本分类的一个重要问题就是文件表示,如何从中提取特征,可用于分类。卷的信息在互联网和企业内部网继续增长,越来越多的需要对工具帮助人们更好的找到,过滤和管理这些资源。文本分类,自由文本文档分配给一个或多个预定义类别根据其内容,是一个重要的组件在许多信息管理任务,比如实时排序的电子邮件或文件到文件夹层次结构、话题识别支持特定主题处理操作,结构化搜索和/或浏览,或找到文档匹配长期站在利益或更多的基于动态任务的利益山顶有几个类似的任务,比如文本过滤和路由。所有上面提到的任务需要文本分类器,决定哪些类是更贴近用户的兴趣。因此,文本分类器应该能够排名分类文档&排名文档指定类。在许多情况下训练有素的专业人员用来分类新项目非常耗时和昂贵的很容易出错,因此限制了其适用性。因此有一个自动文本分类技术的开发越来越浓的兴趣。

这些方法的输入是一组(即文档。,training data), the classes which these documents belong to, and a set of variables describing different characteristics of the documents. An important issue in text categorization is how documents are represented, and how features can be extracted from them which can be used for categorization. A standard document representation is a vector of term occurrences, as used in the information retrieval field. Feature selection is used to extract a set of features which will aid in categorizing a document [2].

应用程序:

使用文本分类技术在今天的各种各样的问题。文本分类器可用于分类文档和网页。Text分类中扮演一个重要的角色在特定的业务应用程序,如内容管理、搜索和检索,用户分析和客户关系管理。文本分类可以用来组织信息使其通航。文本分类可以帮助定位信息,客户投诉或路线。它可以用来消除不相关的搜索引擎结果,通过确保网页是关于用户的期望的主题。在这种环境下的文本分类器可能是最适当的方法对实际系统而不是其他复杂的学习模型[3]。文本分类器主要用于自由流动基本上是一个非结构化文本的文本文档。文本分类等非结构化文本都是用一个统计特征加权方法。为了获得更好的结果,文本文档预处理。在预处理、高维度的文本减少消除数字,标点符号,连字符,停止词和高/低频率单词和运用阻止。 It also covers reduction technique used for elimination of synonyms due to which we get the effective result. This strategy of text classification cannot be applied to the domain of unstructured texts describing the advertisements. This is because, the advertisement texts gives the description in terms of the attribute values [4]. For example, a classified matrimonial page as shown below gives the description of two kinds/classes of people interested in an alliance/marriage proposal. Consider an unstructured document, a classified matrimonial advertisement as follows:

“联盟邀请高,v_fair,美丽的女孩- 172/28。MBA(伦敦)。目前在孟买工作。属于定居旁遮普的商业家族,寻找聪明,受过良好教育/男孩解决商业/职业。”

这里,每个词作为一个属性的值的一些预定义的模式。这些属性值可能属于单值/脆,多值,定性、定量、类别或一个区间。如:高,v_fair,美丽的新娘看起来和特性称为多值属性。年龄是一个脆/单值属性。因此,本文档属性可以概括如下:

这种类型的非结构化数据可以有效地表示为象征性的数据库。因此它是使用符号分类数据分析使用一个象征性的数据库,其中每个属性都有一个象征意义,那么符号数据分析的概念的引入为非结构化文档完成在文本文档中给出了描述的属性值。

符号数据分析

符号数据分析(SDA)是一个新的领域领域的知识发现和数据管理、多变量相关分析、模式识别、数据库和人工智能。SDA允许一个更现实的描述考虑输入单位的内部变化和复杂的结构。SDA提供了一个更好的解释结果的自动解释更接近用户的自然语言。SDA提供了工具适合管理复杂、聚合、关系、和高级数据所描述的多值变量,数据表的条目的类别,间隔,或概率分布,通常由逻辑规则和相关的分类法。当观察大型数据集的聚合成更小更易于管理的数据大小,结果描述的新单位总是涉及“象征性的数据”。通过象征性的数据,我们的意思是,而不是一个特定的分类或数值,一组观测值可以是一个的类别或数字,一个区间或概率分布或任何比通常的或更复杂的信息。因此,符号数据分析概括探索性的经典方法,统计和图形数据分析更复杂的数据发出巨大的传统数据基地[5]。

符号数据表

SDA的输入:

符号数据表和规则

输入数据表的列对应符号使用变量来描述一组单位称为个人。行被称为符号描述的这些人,因为他们并不像通常情况下,只有向量的单一量化或分类值[5]。这个符号数据不同类型的细胞,特别是:

(一)一个量化值:

例如,如果“高度”是一个变量和w是一个个人:高度(w) = 165。

(b)一个分类值:

例如,种姓(w) =婆罗门。

(c)的一组值或类别(多值变量):

例如,高度(w) ={168170172}意味着w的高度可以是168,170或172 cms。

(d)一个区间:

例如age_range (w) =(23、26)意味着年龄变化区间[23日26]。

二世。相关工作

考虑自动分类文本文档的问题。这个问题具有重要的现实意义的海量在线文本可以通过万维网、互联网新闻,电子邮件,企业数据库、病人医疗记录和数字图书馆。现有统计文本学习算法可以训练大约分类文档,给定一组足够的训练例子[1]。这些文本分类算法用于自动编目新闻文章(Lewis &盖尔,1994;约阿希姆,1998)和web页面(米切尔,懦夫,DiPasquo Freitag, McCallum尼噶,& Slattery 1998;Shavlik & Eliassi-Rad, 1998)和自动学习用户的阅读兴趣(Pazzani Muramatsu表示,& Billsus, 1996;朗,1995)自动电子邮件(Lewis &诺尔斯,1997;杜,Sahami Heckerman &霍维茨,1998)。这些电流算法的一个关键困难是他们需要一个大,经常禁止,标签的训练例子学习准确的数量。标签通常必须由一个人完成; this is a painfully time-consuming process.

比如,学习的任务UseNet新闻组文章感兴趣的一个特定的人阅读UseNet新闻。系统,改变或预先文章和现在只有用户结束的有趣是非常可取的,和今天的商业利益。通过朗(1995)发现,当一个人阅读和标记对1000篇文章,学习分类器实现了约50%的精度进行预测时只有10%的文件它凝结。大多数用户的一个实用系统,然而,不会有耐心标签一千篇文章尤其是只获得这种级别的精度。人显然更喜欢算法后能提供准确的分类图片只有几十个文章,而不是数千人。

三世。婚姻数据库建设模式

伪代码:

第一步:输入婚姻广告非结构化文本

步骤2:扫描关键字的广告文字逐字从关键字表,然后进行分裂

{(我)关键字提取:如:“寻求联盟”,“寻找”、“联盟邀请的

(2)分裂:分裂之前和之后的关键词广告文本

直到结束(文本)};

第三步:调整文本

{做

提取词:每个单词分割后提取

{做

修剪过程:消除了不必要的符号如逗号,点,

括号等等…。

除了符号像-(连字符),“(双引号),(单引号)等。

},直到结束(词);

直到(结束分裂文本)};

步骤4:扫描文本逐字逐句地从两个不同的字符串和地方的字符串数组

{做

(我)逐字扫描表像种姓、职业、长相、身高、年龄

(2)单值的数量直接转移到新郎/新娘的细节

(3)多值属性如:广告文本的“需要新郎30到35岁之间。”——“从表和扫描值左右比较和存储在需求表中min_age = 30 max_age = 35

直到(结束分裂文本)};

第五步:输出新郎/新娘从给定的广告提出了查询流程细节显示匹配的新郎/新娘的细节

1。建设一个象征性的数据库:

我们首先进入用户界面的非结构化文本文档并对其进行分类。输入的文件存储在一个象征性的数据库,允许用户存储和检索数据以表格形式。它有一个表的集合,在数据库中查询和报告。婚姻数据库包含2表的新娘和新郎,每个表都有各自领域。每个表包含大量的文档。实际上,一个区别于数据库的方案(定义每个表的结构)从每个表的内容根据数据库更新可能会有所不同。设置两个表之间的关系

2。分类基于给数据库查询:

现在我们的表上执行操作,每个概念与类相关联的单位和产生新表。定义的操作,属性值在一个特定的表相匹配的大型集属性中定义的其他表,根据一些条件。然后从数据库中检索匹配所有这些属性。这些操作定义的形式查询。因此对数据库的查询是由以下操作的组合;因此一个查询的结果也表的结构。作为一个例子,我们考虑的婚姻数据库两种特殊类型/类人(新娘,新郎)感兴趣的一个联盟/求婚。这里的要求一个特定的新娘相匹配的属性检索大量的培训和相应的匹配集的新郎。这里符号数据库的构建阶段下,新娘的需求定义即只有以下组的属性。,required_group required_looks required_min_age required_max_age。查询定义如下:

查询(1):

选择所有这些记录从新郎表符合以下标准:

(1)新娘。required_looks = Groom.looks

(2)新娘。required_group = Groom.group

(3)培训。年龄> =新娘。required_min_age Groom.age < = Bride.required_max_age。查询(2):

选择所有这些记录从新娘表符合以下标准:

(1)培训。required_looks = Bride.looks

(2)培训。required_group = Bride.group

(3)新娘。年龄> =新郎。required_min_age Bride.age < = Groom.required_max_age。

四。结论

在这个项目的符号数据分析非结构化文本文档的分类使用象征性的数据库和查询过程提出,由于这些非结构化的文本描述的属性值。根据文本文档的属性的值,属性分类为不同的群体。然后使用一个象征性的数据库属性分类提供重要的查询到数据库。提出的技术看来,它是一种高效的技术对非结构化文本文档进行分类。

引用

迈克尔·w·贝瑞和马陆卡斯特罗,编辑的文本挖掘的调查:聚类、分类和检索的,第二版,2007年9月30日
Charu c Aggarwal IBM t·j·沃森研究中心约克镇高地,纽约和城乡翟伊利诺伊大学香槟分校乌尔班纳,伊尔“挖掘文本数据,第四章——一项调查的文本聚类算法
m . Ikonomakis年代。Kotsiantis, V。Tampakas,使用机器学习的文本分类技术,圆柱销售电脑,问题8卷4,2005年8月,pp.996 - 974
Grigorios Tsoumakas,亚里士多德大学塞萨洛尼基、希腊和Ioannis Katakis,亚里士多德大学塞萨洛尼基,希腊、多标签分类:概述,数据仓库和矿业国际期刊,3(3),1-13,2007年7月- 9月
Edwin Diday介绍符号数据分析和汽水软件”,施普林格- 2000,十八,425 pp、ISBN 978-3-642-57155-8