ISSN在线(2320 - 9801)打印(2320 - 9798)
信息收集挖掘文本数据
在许多文本挖掘应用程序端版本信息是可用的文本文档。这种sideinformation可能不同,例如文档来源信息,文档中的链接,用户访问权限的行为从b日志,或其他分文本属性嵌入到文本文档。这些属性可能包含大量的信息聚类的目的。徘徊,这个sideinformation的相对重要性可能很难估计,特别是在一些信息是吵了。在这种情况下,它可以是风险端版本信息合并到采矿过程中,因为它可以提高质量表示的开采过程中,或者可以添加噪声过程。因此,需要一个有原则的方式来执行采矿过程中,以最大化优势利用这边的信息。本文设计一种算法,结合了古典分区算法和概率模型来创建一个有效的聚类方法。然后介绍如何扩展方法的分类问题。目前实验结果的真实数据集,以说明使用这种方法的优点。
Naveena。米,恋人。R, Balaji.M