ISSN在线(2320 - 9801)打印(2320 - 9798)
使用符号数据分析文本分类
在现实世界中,一个操作文本分类系统通常是放置在环境中human-annotated培训文档的数量很小,尽管成千上万的类。在这种环境下的文本分类器可能是最适当的方法对实际系统而不是其他复杂的学习模型。文本分类器主要用于自由流动的文献基本上是结构化的文本文档和分类都是用一个统计特征加权方法包括预处理——一个方法在文本减少通过消除数字,标点符号,连字符,停止词和高/低频率单词和运用阻止。这种策略不能应用于文本分类领域的非结构化文本描述了广告,因为这些文本描述的属性值。以来所有的文本分类器等分类是有用的文本在一个非结构化的文本文档,介绍了符号数据分析的概念。符号数据分析(SDA)是一个新的领域领域的知识发现和数据管理、多变量相关分析、模式识别、数据库和人工智能。在这个方法的符号数据分析非结构化文本文档的分类,提出了使用一个象征性的数据库和查询过程。提出的技术看来,它是一种高效的技术对文本进行分类介绍了非结构化文本文档,因此为更好的结果在处理非结构化的文本文档
Sangeetha N