所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

高质量的评估使用多个观点相似

K.Ramesh1,C.Vasumurthy2和Prof.D.Venkatesh3
  1. 副教授和煤斗,CSE称,盖茨工程学院,Gooty,印度安得拉邦
  2. PG学生,CSE称,盖茨工程学院,Gooty,印度安得拉邦
  3. 迪恩,cse称,盖茨工程学院,Gooty,印度安得拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

集群是一个分组的过程对象基于某些相似性度量。然后组织被称为集群可以进一步分析和用于操作,比如查询处理。聚类算法假设某些对象在给定的数据集之间的关系。现有的聚类算法对文本挖掘使用单一观点相似度度量分割聚类的对象。这些算法的主要缺点是合成集群不能利用完全信息的评估。在本文中,我们提出一种新的测量寻找multi-viewpoint建立对象之间的相似性。这种方法考虑多视点,同时为集群比较对象。这个措施可以有更多信息相似性的评估从而使集群与最高质量。我们还提出了两种标准的方法实现intra-cluster相似性最高,最低inter-cluster相似。实证结果表明,该措施是用于制造质量集群。

关键字

文本挖掘、单视点,视点点,集群

介绍

数据挖掘是数据集的研究,从数据中提取趋势或模式。有许多种技术在数据挖掘的领域。集群是广泛使用的数据挖掘算法,帮助分组相似的对象。这有很多优势在现实世界的应用,如搜索引擎。聚类两种类型。他们被称为分区聚类和层次聚类。本文着重于分区的集群。类型的k - means算法的聚类算法,广泛应用于工业[1]。它仍然出现在前十名名单这样的算法。它也有许多口味虽然他们在功能上是相似的。k - means算法需要的数据集和集群的数量作为两个必需的参数。 Credit card fraud detection is one of the areas in which K-means is being used. In this application K-Means make a model from the dataset with three different clusters. When new records are added, they are adapted to this model. Based on the pattern in the data, the new transaction is considered normal or probable fraudulent. Thus in the data mining domain, it is simple and effective clustering algorithm [2]. However, it has drawbacks tool as it is sensitive to cluster size, initialization and with low performance comparatively. In spite of these drawbacks, it is still popular and most widely used as it is simple, scalable and intuitive. Its good quality is that it can be used with algorithms in combination to yield good results. The process of clustering with highest quality is an optimization process. With the optimization in place, highest quality clusters can be formed. Therefore, for good quality clusters, it is important to use similarity measure which is suitable. For instance cosine similarity measure is used by K-means. Original K-means also used ED (Euclidean Distance) [3] and [4].
数据分组、数据分区和分层聚类是聚类方法的三种类型根据Leo Wanner) [5]。具有层次结构的集群可能与层次聚类分区集群重点是将给定对象划分为某些群体。数据分组的方法是让一组重叠集群。通过调查所提供的事实,提出工作是确定的。尤其是相似性度量是这个工作的动机。从文献的回顾,发现用于聚类的相似性度量方法对结果的影响集群。因此我们认为新的相似性度量的基于multi-viewpoint作为单个观点措施不产量最高品质的集群。发展新的相似性衡量之后,我们专注于制造两个聚类标准实现intra-cluster相似性最高和最低inter-cluster相似。剩下的纸结构分成等相关工作,multi-viewpoint相似性为基础,算法,实验设置和评价、结果和结论。

之前的作品

文档聚类需要在现实世界中应用,如网络搜索引擎。它是在文本挖掘。它被用于许多年。是给文档分组到不同的集群。这些集群使用各种应用程序在现实世界中,如搜索引擎。文件作为一个对象是一个词在文档中被称为作为一个术语。一个向量建立代表每个文档。总数方面的文档是由m。某种加权方案等项频率-逆文档频率(TF-IDF)是用于表示文档向量。有很多文档聚类方法。其中包括基于概率的方法[8],非负矩阵分解[7]和信息理论co-clustering [6]。 These approaches are not using a particular measure for finding similarity among documents. In this paper, we make use of multi-viewpoint similarity measure for finding similarity. As found it literature, a measure widely used in document clustering is ED (Euclidian Distance).
图像

基于多视点点相似的措施

Multi-viewpoint基于相似性的方法是本文聚类文件。意味着,它使用一个以上的观点而找到对象之间的相似度和聚类成不同的群体。我们计算两个文档之间的相似度为:
图像
这里描述的方法。当di和dj集群Sr的两点,dh被认为是它们之间的相似度等于ED的余弦角点。这里使用的假设“dh不是相同的集群dj和迪”。当有相似距离,dh的可能很有可能是在同一集群。multi-viewpoint相似性测量被用于本文可能很少提供负面结果,很少有文档。然而,它可以忽略更当集群提供了文件。

提出的算法

提出了许多算法multi-viewpoint相似性度量。相似矩阵的过程如清单1所示。
图像
算法2验证过程
通过平均整体行,最后的计算有效性。它是按照第14行。众所周知,当验证分数较高,这反映了聚类的相似性较高,因此有资格。图1显示了多视角的有效性得分simialirty和余弦相似性。
图像
在图1中,可以看出系列4 klb-MVS有关,系列3对应klb-CS,系列2对应reutors-7系列1对应于reutors 7 CS。如图1所示的MVS相比更高的性能的CS。
图像
算法3对增量聚类算法
算法3显示算法与两个阶段。细化和初始化。选择k文件作为种子被称为初始化使初始位置而细化使迭代形成最好的集群。在每个迭代细化阶段访问n随机的文件数量。之后,为每个文档验证完成的过程。如果文档被认为是类似的,它是搬到集群。没有文档时,迭代结束。

绩效评估

对绩效评估两个标准函数如红外、和Iv multi-viewpoint相似的措施。基准数据集被用来测试我们的方法的效率。结果列在表1。
图像

实验装置和评价

我们评估的算法与其他算法相比。包括m代表,最小最大切割算法,图EJ,只不过是CLUTO图的扩展提花,graphCS这只不过是CLUTO与余弦相似性的图形,SpkMeans与余弦相似,只不过是球形的k - means MVSC Iv与Iv只不过是该方法判别函数和MVSC Ir红外标准的建议的方法。在下一节中给出的结果。

结果

实验的结果在图2和图3。它显示了图形化结果所有20个基准数据集的聚类算法。结果提出了两种不同的图形。每个图表显示了10个数据集的实验结果。
图像
图像
如图2所示(a)和(b),该方法与其他算法相比性能更好。GraphEJ只在某些情况下表现更好。MVSC Kr的整体性能,MVSC Iv远比别人。α的影响也呈现在MVSC Ir的性能。

α的影响在MVSC IR的性能

据悉,集群规模和平衡有影响的方法partitional集群基于标准功能。敝中断,FScore,和准确性评估和结果呈现在图3。
图像
如图3所示,MVSR红外性能在5%对任何评估指标最佳案例。

结论

本文提出一种新颖的基于相似性的方法称为multi-viewpoint相似的措施。similaritymeasure能够提供信息评估和给予高质量的集群。建议的方法达到同一集群对象之间的相似性最高和最低之间相似的对象不同的集群。两个标准函数与MVS实现。拟议中的相似性度量与基准数据集测试。本文提出的聚类算法与其他五个聚类算法用于文档聚类。结果显示,基于multi-viewpoint相似性测量优于他们。

引用

  1. A·艾哈迈德·l·戴伊,“一个方法来计算距离两个类别相同属性的值在无监督学习分类的数据集,”Recognit模式。列托人。,vol. 28, no. 1, pp. 110 – 118, 2007.
  2. a . Banerjee Dhillon, j . Ghosh和s . Sra”集群单位超球面上使用冯Mises-Fisher分布,“j·马赫。学习。Res, 6卷,第1382 - 1345页,2005年9月。
  3. i Dhillon和d·穆德哈,”概念分解为大型稀疏的文本数据使用集群,“马赫。学习。,vol. 42, no. 1-2, pp. 143–175, Jan 2001.
  4. i s Dhillon s Mallela和d s穆德哈,“信息理论co-clustering,“在知识发现(KDD), 2003年,页89 - 98。
  5. s . Flesca g .曼科e . Masciari l . Pontieri和a . Pugliese“快速检测xml结构相似,IEEE反式。"。和数据中。,vol. 17, no. 2, pp. 160–175, 2005.
  6. 即盖恩,冯·Luxburg和r·c·威廉姆森”集群:科学还是艺术?“捏09集群理论研讨会,2009。
  7. d . Ienco r . g . Pensa, r . Meo“基于上下文的远程学习分类数据聚类,在8日Proc. Int。电脑。艾达,2009年,页83 - 94。
  8. 狮子座万纳(2004)。“集群技术概论”。可以在http://www.iula.upf.edu/materials/040701wanner.pdf在线(浏览:2012年8月16日)
  9. c·d·曼宁,p . Raghavan和h .原理图¨utze,介绍信息检索。剑桥大学出版社,U。,2009年。
  10. 网页聚类”,在第十七次全国Conf. Proc. Artif。智能。:Artif车间。智能。网络搜索。AAAI, 2000年7月,58 - 64页。
  11. j .史和j·马利克“规范化的削减和图像分割,IEEE反式。模式肛门。马赫。智能。,vol. 22, pp. 888–905, 2000.
  12. a . Strehl j . Ghosh和r·穆尼”相似的措施的影响。
  13. 吴x, v . Kumar j·罗斯•昆兰j . Ghosh问:杨,h . Motoda g . j .克劳克兰Ng, b . Liu p . s . Yu Z.-H。施泰因巴赫,m, d . j .手,d·斯坦伯格“十大算法在数据挖掘,”Knowl.Inf。系统。,vol. 14, no. 1, pp. 1–37, 2007.
  14. w·徐、刘x和y锣,“基于非负矩阵分解文档聚类,在市立,2003年,页267 - 273。
  15. h .咋x, c . h .问:叮,m .顾和h·d·西蒙,”k - means聚类光谱放松,”在少量的酒,2001年,页1057 - 1064。
  16. y赵和g . Karypis实证和理论的比较选择的文档聚类准则函数,“马赫。学习。,vol. 55, no. 3, pp. 311–331, Jun 2004.
  17. 钟,“高效的在线球形k - means聚类,在IEEE IJCNN, 2005年,页3180 - 3185。