信息收集挖掘文本数据

Naveena.M¹,Karthik.R²,Balaji.M³

P.G.学者,CSE, Karpagam大学印度哥印拜陀
Karpagam大学副教授,CSE印度哥印拜陀
P.G.学者,CSE, Karpagam大学印度哥印拜陀

文摘

在许多文本挖掘应用程序端版本信息是可用的文本文档。这种sideinformation可能不同,例如文档来源信息,文档中的链接,用户访问权限的行为从b日志,或其他分文本属性嵌入到文本文档。这些属性可能包含大量的信息聚类的目的。徘徊,这个sideinformation的相对重要性可能很难估计,特别是在一些信息是吵了。在这种情况下,它可以是风险端版本信息合并到采矿过程中,因为它可以提高质量表示的开采过程中,或者可以添加噪声过程。因此,需要一个有原则的方式来执行采矿过程中,以最大化优势利用这边的信息。本文设计一种算法,结合了古典分区算法和概率模型来创建一个有效的聚类方法。然后介绍如何扩展方法的分类问题。目前实验结果的真实数据集,以说明使用这种方法的优点。

关键字

文本挖掘、聚类、报告生成

介绍

迅速增加的文本数据的上下文中这些大型在线收藏导致感兴趣创建可伸缩的和有效的挖掘算法。在许多应用领域,大量的一面也连同有关文件的信息。这是因为文本文档的上下文通常发生在各种应用程序中,可能会有大量的其他类型的数据库属性或元信息可能是有用的聚类过程。其中许多文本文件包含的链接,也可以当作属性。这样的链接包含很多有用的信息挖掘的目的。等在前面的情况下,属性通常提供的见解关于文档之间的相关性的可能不容易从原始内容。许多b文档具有与其相关联的元数据,对应于不同的属性,如来源或其他文档的来源的信息。在其他情况下,数据所有权等位置,甚至时间信息可能对矿业信息的目的。在许多网络和用户共享应用程序,文件可能与user tags有关,也可能是非常有益的。尽管这类端版本信息有时是有用的在提高聚类质量的过程中,它可以是一个危险的方法端版本信息时吵了。 In such cases, it can actually worsen the quality of the mining process. Therefore, will use an approach which carefully ascertains the coherence of the clustering characteristics of the side information with that of the text content. This helps in magnifying the clustering effects of both kinds of data. The core of the approach is to determine a clustering in which the text attributes and sideinformation provide similar hints about the nature of the underlying clusters, and at the same time ignore those aspects in which conflicting. While our primary goal in this paper is to study the clustering problem, note that such an approach can also be extended in principle to other data mining problems in which auxiliary information is available with text. Such scenarios are very common in a wide variety of data domains. Therefore, will also propose a method in this paper in order to extend the approach to the problem classification. Will show that the extension of the approach to the classification problem provides superior results because of the incorporation of side information. Our goal is to show that the advantages of using side-information extend beyond a pure clustering task, and can provide competitive advantages for a wider variety of problem scenarios. This paper is organized as follows. The remainder of this section will present the related work on the topic. In the next section, will formalize the problem of text clustering with side information. Will also present an algorithm for the clustering process.

二世。相关工作

文本聚类研究广泛的数据库社区工作的主要焦点一直在多维数据的可伸缩集群不同的聚类算法的一般调查可能被发现。集群的问题也被广泛研究的文本数据。一项调查可能发现的文本聚类方法。最会知道文本聚类技术是分散收集技术[1]使用烧结的和分区的集群。其他相关的文本聚类方法使用类似的方法进行了讨论。Co-clustering方法[2]中提出了文本数据。一个期望最大化(EM)提出了文本聚类的方法。矩阵分解技术用于文本聚类[3]中提出赞成。本文将首先提供一个方法来使用其他类型的属性与文本聚类。将显示使用这种方法的优点在纯文本聚类。 Such an approach is especially useful, when the auxiliary information is highly informative, and provides effective guidance in creating more coherent clusters. will also extend the method to the problem of text classification, which has been studied extensively in the literature.

三世。聚类方面的信息

将讨论一个方法聚类文本数据与信息。假设有一个语料库的文本文档。文档的总数是N,他们用T1。TN。假设的集合不同的单词在整个语料库年代用w与每个文档Ti有关,有一组属性ξ。每组属性习近平有d维度,用(ξ1。xid)。指辅助属性等属性。为了便于在符号和分析中,假设每个side-attribute xid是二进制,尽管数值和分类属性都可以很容易地转换成这种格式相当简单。这是因为不同的分类属性值可以认为是单独的二进制属性,而数字数据可以名誉扫地的二进制值与属性的使用范围。请注意,我们的技术并不局限于二元辅助属性,但是也可以应用到其他类型的属性。 When the auxiliary attributes are of other types (quantitative or categorical), they can be converted to binary attributes with the use of a simple transformation process. For example, numerical data can be discredited into binary attributes. Even in this case, the derived binary attributes are quite sparse especially when the numerical ranges are discredited into a large number of attributes. In the case of categorical data, can define a binary attribute for each possible categorical value. In many cases, the number of such values may be quite large. Therefore, will design our techniques under the implicit assumption that such attributes are quite sparse.

文本聚类方面的信息将使用辅助信息,以支持见额外的见解,可以提高聚类的质量。在许多情况下,这样的辅助信息可能是嘈杂的,可能没有有用信息的聚类过程。因此,我们的方法将设计为了放大相干绣花袍文本内容和端版本信息,当检测到。在这种情况下,文本内容为集群和端版本信息不显示一致的行为过程,这些部分端版本信息的影响被边缘化。

四、算法

科茨聚类算法

将描述我们的文本聚类算法方面的信息。将这种算法称为科茨在纸,对应于这样一个事实:它是基于内容和辅助属性的文本聚类算法。假设一个算法的输入是集群的数量k。在所有的文本聚类算法的情况下,假设障碍

已被移除,而为了提高执行歧视穷人的属性。该算法需要两个阶段:

初始化:使用一个突出显示的初始化阶段使用标准文本聚类方法没有任何端版本信息。提供一个合理的初始起点。角化癌和分区创建的集群形成在第一阶段为第二阶段提供了最初的起点。注意,第一个阶段是基于文本的,并且不使用辅助信息。

主要阶段:算法的主要阶段第一阶段后执行。这个阶段开始与这些初始组和迭代重建这些集群使用文本内容和辅助信息。这一阶段执行交替迭代使用文本内容和辅助属性信息以提高聚类的质量。调用这些迭代内容分别迭代和辅助迭代。两次迭代的结合被称为一个主要的迭代。因此,每个主要的迭代包含两个小迭代,分别对应于辅助和基于文本的方法。第一阶段的重点是构造一个初始化,它提供了一个很好的起点基于文本内容的聚类过程。从内容和辅助信息集成的关键技术是在第二个阶段,将我们大部分的后续讨论的第二阶段算法。第一阶段是一个简单直接的应用文本聚类算法提出了[4]。整个方法使用交替微小迭代的基于内容和辅助属性的聚类。 These phases are referred to as content-based and auxiliary attribute-based iterations respectively. The algorithm maintains a set of seed cancroids, which are subsequently refined in the different iterations. In each content-based phase, assign a document to its closest seed cancroids based on a text similarity function. The goal of this modeling is to examine the coherence of the text clustering with the side-information attributes. Before discussing the auxiliary iteration in more detail, will first introduce some notations and definitions which help in explain- ing the clustering model for combining auxiliary and text variables. Assume that the k clusters associated with the data are denoted by C1 . . . Ck. In order to construct a probabilistic- tic model of membership of the data points to clusters, assume that each auxiliary iteration has a prior probability of assignment of documents to clusters (based on the execution of the algorithm so far), and a posterior probability of assignment of documents to clusters with the use of auxiliary variables in that iteration. Since are focusing on sparse binary data, the value of 1 for an attribute is a much more informative event than the default value of 0. Therefore, it suffices to condition only on the case of attribute values taking on the value of 1. For example, let us consider an application in which the auxiliary information corresponds to users which are browsing specific b pages. In the next content-based iteration, assign the documents to the modified cluster-cancroids based on the cosine similarity of the documents to the cluster cancroids [5]. Each document is assigned to its closest cluster cancroids based on the cosine similarity. The assigned documents are then aggregated in order to create a new cancroids Meta document which aggregates the frequency of the words in the documents for that cluster.

该算法的关键问题是算法的收敛到一个统一的解决方案。为了计算收敛,假设有一个标识符与每个集群的相关数据。这个标识符不会改变从一个迭代到另一个特定角化癌.Within t主要迭代;计算以下两个不同的小迭代的数量为每个文档:文档Ti的计算集群标识符被分配在t的基于内容的步骤主要迭代。这是用qc(我,t)计算的集群标识符文档Ti赋值的概率最高的auxiliary-attribute集t主要迭代。这是用质量保证(我,t)。为了确定迭代过程终止时,希望这些文件有相似集群作业(t−1) th和t步骤结束时auxiliary-attribute和基于内容的步骤,被记住的一个重要的一点是,输出该算法聚类过程本质上是为了收敛集群使用内容和辅助信息的一些文件不能同意集群行为中使用不同的标准。

柯尔特聚类算法

将我们的算法称为柯尔特算法在整个论文,指它是内容和辅助属性的文本分类算法。

该算法使用监督聚类的方法来k数据分割成不同的集群。这个分区是用于聚类的目的。用于训练算法的步骤如下:

功能选择:在第一步中,使用特征选择删除那些属性,不相关的类标签。这是表现为文本属性和辅助属性。

初始化:在这一步中,使用一个监督k意味着为了执行初始化的方法,使用纯文本内容。监督k - means初始化之间的主要区别和一个无监督的初始化的类成员的记录在每个集群是纯粹的监督的情况下初始化。因此,kmeans修改聚类算法,因此,每个集群只包含一个特定类的记录。

Cluster-Training模型构建:在此阶段,结合文本和端版本信息的目的是用来创建一个基于集群模型。在初始化的情况下,集群的纯度维持在这个阶段。一旦监督集群构造的集合,这些用于分类的目的。将在下面详细讨论每一个步骤。

接下来,将描述柯尔特算法的训练过程。培训过程的第一步是创建一组监督集群,然后用于集群。

监督聚类过程的第一步是进行特征选择,只保留有识别力的属性。在这个特征选择过程,计算每个属性的基尼系数的数据的类标签。如果基尼系数γ标准差(或更多)低于平均基尼指数的所有属性,这些属性是全球修剪,进一步在聚类过程中从未用过。一旦特性被选中时,初始化培训过程的执行只与内容的属性。一旦初始化已经完成,主要监督集群的创建过程的使用内容和辅助属性的组合。与前面的情况下,除了这样做只是为了光泽指数属于同一类标签。文档分配到其中一个集群与最大后验概率指标。因此,作业总是执行与相同的标签,一个集群,每个集群维护类分布的均匀性。

前两个k - means类型的迭代算法运行在完全相同的方式,在集群allod有不同的类标签,然后添加到流程监督。为了实现这一目标,前两个k - means类型的迭代算法运行在完全相同的方式,在集群allod有不同的类标签。

诉实验装置

请参考我们的聚类方法基于内容和辅助属性的文本聚类(科茨)。作为基线,使用两种不同的方法:

(1)一个有效的基于投影聚类方法适应的k - means方法文本。这种方法是众所周知的提供优秀的聚类结果在一个非常有效的方法。将这些算法称为Schutze西尔弗斯坦[文本]在所有图传说在实验部分。

(2)适应的k - means方法直接使用文本和边信息。

柯尔特方法按照以下的基本方法:

(1)测试对朴素贝叶斯分类器只使用文本。

(2)测试的SVM分类器只使用文本。

(3)测试监督聚类方法,使用文本和边信息。将表明,我们的方法具有显著的优势为聚类和分类的问题。

有效性的结果

结果有效性的两个基线算法和科茨科拉算法与越来越多的集群,DBLP和IMDB数据集科茨算法和基线。注意,纯度稍微会增加当集群数量的增加在所有三个数据集。这是很自然的,因为大量的集群的结果在一个细粒度的划分。进一步注意到科茨优于基线在所有三个数据集的纯度。在聚类,因此分类精度是一条水平线。在每种情况下,可以清楚地看到,柯尔特集群方法的准确性明显高于其他方法。是有一些变化的分类精度不同的方法对不同的数据集。盘旋,柯尔特集群方法保留对所有数据集,最大精度和很强大的集群的数量。

整个范围的值的平滑参数_,柯尔特集群方法执行更有效地对其他方案的唯一情况并不会做选择的情况下,特征选择阈值太小。

六。结论

本文提出的方法挖掘文本数据使用端版本信息。多种形式的文本数据来自数据库包含大量端版本信息或元信息,这可能是为了提高使用聚类过程。为了设计聚类方法,结合迭代分区技术和概率估计过程,计算不同类型的端版本信息的重要性。为了使用这个一般方法设计聚类和分类算法。现在结果真实数据集说明我们的方法的有效性。结果表明,端版本信息的使用可以大大提高文本聚类和分类的质量,同时保持高水平的效率。

引用

h·弗兰克,“在概率图最短路径,”行动研究,17卷,没有。4、583 - 599年,1969页。
l . g .勇敢的枚举和可靠性问题的复杂性,“暹罗j .第一版。,8卷,不。3、410 - 421年,1979页。
n . j . Krogan g .贾克纳,,“全球景观酵母酿酒酵母的蛋白质复合物,“自然,440卷,没有。7084年,第643 - 637页,2006年3月。
o . Benjelloun公元Sarma, a . Halevy和j . Widom教授“Uldbs:数据库与不确定性和血统,”在VLDB, 2006年,页953 - 964。
n . n .达尔维d Suciu,“高效查询评价probabilisticdatabases”, 2004。m . Potamias f . Bonchi a Gionis, g . Kollios”再邻居在不确定的图表,“PVLDB, 3卷,没有。1,第1008 - 997页,2010。
z邹、h·高和j·李,“发现频繁子图/不确定概率下图形数据库语义,“在知识发现(KDD), 2010年,页633 - 642。
r·沙米尔r .夏朗,d .提苏尔”集群图修改问题,“离散应用数学,144卷,没有。1 - 2、173 - 182年,2004页。
n .邦萨尔a .布卢姆和美国拉,相关聚类,机器学习,卷。56岁的没有。1 - 3、89 - 113年,2004页。
美国Brandes、m . Gaertler和d·瓦格纳”工程graphclustering:模型和实验评价,“ACM的算法实验杂志上,12卷,2007年。
Karypis和诉Kumar“平行多级k路划分为不规则的图形,“暹罗审查,278 - 300年,1999页。