所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

小说使用谱约束k - means聚类的初始化技术原型

太太。Sujatha和夫人尚Sona
  1. Dr.G.R IT&Science学院副教授。Damodaran理学院,哥印拜陀。
  2. 对女性Tirupur Tiruppur库玛大学。
相关文章Pubmed,谷歌学者

访问更多的相关文章全球研究计算机科学杂志》上

文摘

抽象——集群是一个通用技术用于分类数据组相关的对象的集合。最常用的聚类技术实践是k - means聚类。k - means的主要限制是它的初始化技术。几次已经由许多研究人员来解决这个问题,但仍然没有有效的技术可用于在k - means更好的初始化。一般来说,k - means遵循随机生成的初始起点通常导致可怜的聚类结果。更好的聚类结果几次迭代后的k - means技术可以实现。然而,决定是非常复杂的计算限制获得更好的结果。本文提出了一种新颖的方法更好的k - means使用谱约束的初始化技术原型(k - means使用SCP)。该方法包含约束的顶点。为了将约束作为顶点,SCP的方法是使用。 The proposed approach is tested on the UCI Machine learning repository. The proposed initialization provides better clustering accuracy with lesser execution time.

关键字

光谱Co-clustering Semi-Unsupervised基因选择、k - means初始质心,谱约束的原型

介绍

聚类分析是一种技术或集群组可用的数据转换成一个有意义或有价值的集群[1]。如果有意义的组织目标,那么集群应该捕获数据的预期结构。在某些情况下,另一方面,聚类分析是一个有价值的依据其他目的,例如,数据汇总。是否理解或有效性,聚类分析大大发挥了关键作用在类别广泛的领域,比如心理学和其他社会科学、生物学、统计学、模式识别、信息检索、机器学习和数据挖掘。有许多应用程序集群分析实际问题。
基于原型的聚类方法生成一个一级分区的数据对象。有几种技术,但两个最著名的k - means K-medoid。k - means定义了一个原型的质心[2],这经常意味着一群点,,通常用于连续n维空间中的对象。K - medoid medoid定义了一个原型而言,这是一群最具代表性的点分,并可应用于大范围的数据,因为它只需要一双对象的距离测量。而重心几乎从不对应于一个实际的数据点,medoid,通过它的定义,必须是一个实际的数据点。在本节中,完全专注于k - means,这是一种最古老和最广泛使用的聚类算法。使用重心的随机初始化时,不同的k - means通常产生不同的运行总党卫军[3]。这是说明两维点的设置如图1.1所示,它有三个点的自然集群。图1.1 (a)展示了一个集群解决方案,是全球最低的三个集群SSE,而图1.1 (b)显示了一个次优的聚类,它仅仅是一个局部最小值。选择合适的初始质心[4]是基本的k - means过程的关键一步。 A common approach is to choose the initial centroids randomly, but the resulting clusters are often poor.
图像
下面的过程是另一种方法来选择初始质心。随机选择第一点或者所有点的质心。为每个连续的初始质心,然后,从任何选择最远的点的初始质心已经选中。通过这种方式,获得一组初始质心,不仅是保证随机选择也很好地分开。不幸的是,这种方法可以选择离群值,而不是点密集的地区(集群)。此外,它是昂贵的计算从当前设置的初始质心最远的点。为了克服这些问题,这种方法常常应用于样品的点。由于异常值是罕见的,他们往往不会出现在一个随机样本。相比之下,从每一个密集的地区很可能包括除非样本量很小。同时,所涉及的计算发现最初的重心是大大减少,因为样本量通常远小于点的数量。
虽然提到初始化算法可以帮助找到好的初始中心的某种程度上,他们是相当复杂和一些使用k - means算法作为算法的一部分,仍然需要使用随机聚类中心初始化方法。新方法找到的初始质心k - means算法。提出了方法和实验结果在接下来的部分。

相关的工作

浩平表示Arai et al .,[5]所述分级k - means: k - means的质心算法初始化。最初的起点生成随机的k - means常常使聚类结果达到当地的最适条件。后的k - means聚类可以实现更好的结果计算超过一倍。然而,很难决定计算极限,可以给出更好的结果。本文提出了一种新的方法来优化的初始质心k - means [6]。它利用k - means聚类结果在一定时期,尽管其中一些达到当地的最适条件。然后,变换结果结合分层算法,以确定k - means初始质心。实验结果表明,该方法有效提高k - means聚类结果。
希Aradhya et al .,[7]分析了计算机数据处理技术的快速进步,收集和存储提供了无与伦比的机会扩大生产能力,服务、通讯、和研究。然而,大量的高维数据更新最先进的数据挖掘技术的挑战。特征选择是一种有效的降维技术和成功的数据挖掘应用程序必不可少的步骤。这是一个伟大的现实意义和研究领域已经开发并发展回答由于越来越高维度数据的挑战。它的直接利益包括建筑更简单、更易于理解的模型,提高数据挖掘的性能,并帮助准备,清洁,和理解数据。简要介绍了特征选择的关键组件,并检查其发展与数据挖掘的发展。然后概述FSDM FSDM10的论文,它展示了一个充满活力的研究,当代利益举行,新的应用程序,和正在进行的研究工作。然后在数据密集型应用程序检查新生的要求和识别一些潜在的研究需要多学科的努力。
a . m .法西姆et al。[8]提出了一种有效的方法,将数据点分配给集群。最初的k - means算法计算非常昂贵,因为所有迭代计算数据点之间的距离和重心。法希姆的方法利用两个为此距离函数——一个类似于k - means算法和另一个基于启发式减少距离计算。但这种方法假定初始质心是随机决定的,如最初的k - means算法。因此没有保证的准确性最终集群。

方法

最流行的一种聚类方法是k - means聚类算法。它生成k点作为初始质心任意,k是一个用户指定的参数。每一个点然后分配给集群最亲密的重心[9],[10],[11]。然后每个集群的重心是通过更新每个集群的数据点的均值。一些数据点可能会从一个集群移动到其他集群。再一次新的质心计算,并将数据点分配给适当的集群。重复的任务和更新重心,直到满足收敛标准即。集群,没有一点变化,或者说,直到重心保持不变。尽管k - means的很大的优势是易于实现,它有一些缺点。最终的聚类结果的质量的k - means算法高度依赖于初始质心的任意选择。在最初的k - means算法中,初始质心选择随机,因此不同的集群获得了不同运行相同的输入数据[12]。 Moreover, the K-Means algorithm is computationally very expensive also.
该方法包括两个步骤即光谱Co-clustering[13],将约束作为顶点[14]。这个过程所涉及的步骤如下。
光谱Co-clustering:
光谱biclustering可以进行以下三个步骤:数据标准化、Bistochastization和播种地区发展集群。原始数据可以安排在一个矩阵。用这个矩阵的行和列分别表示的数据和不同的条件。数据标准化执行如下。数据取对数。开展五到十周期减去均值或中位数的行和列,然后执行五到十row-column正常化的周期。
图像
图像
将约束:
假设一些顶点被认为属于同一集群,一个因此预计co-clustering结果与先验知识相一致。最初的先验知识建模约束矩阵作为“必须关联”
图像
全局优化从而减少以下功能:
图像
δ是约束信心参数规范约束的重要性。
将约束作为额外的链接:
图像
注意,在这种情况下,图不再是两偶图,因为可能有任意两个顶点之间的联系。在这种情况下,传统的光谱co-clustering[15]不能直接解决问题,并进行了光谱分区上
图像
将顶点约束:
上述技术包含约束作为额外的链接,但本文的约束和顶点合并。
图像
图像
限制Co-clustering跟踪最小化(SCP的方法):
在本节中,介绍了谱约束原型(SCP)直接模型的目标跟踪算法,最小化问题。首先,给定一个两偶图定义co-clustering分区矩阵
图像
图的拉普拉斯算子等[16],有几个优点对称半正定。从上面的建模co-clustering约束作为跟踪规范最小化问题。

实验结果

提出了k - means初始化技术是尝试使用两个UCI机器学习库数据集:肺癌数据集和淋巴管造影数据集。
聚类精度:
计算出标准k - means聚类精度(随机初始化技术),DPDA k - means(从数据分区的数据推导初始聚类中心轴),k - means使用约束谱Co-clustering (CSC)和k - means在肺癌的数据集使用SCP和淋巴管造影数据集。图4.1展示了聚类结果的准确性比较该方法与标准k - means, DPDA-K-Means并使用CSC k - means。从图中,可以观察到在这两个数据集,聚类结果的准确性提出了k - means使用SCP是优于其他方法。
图像
执行时间:
执行时间计算基于聚类方法的运行时间在两个数据集。图4.2显示了执行时间采取的标准k - means, DPDA-K-Means, k - means使用CSC和提出了k - means使用SCP。
图像
它可以观察到,执行所需的时间使用拟议中的k - means使用SCP很低,然而,还需要更多的时间被其他集群技术来执行。

结论

许多应用程序依赖于集群技术。最常用的聚类技术是k - means聚类。但初始化k - means常常使聚类结果达到当地的最适条件。为了克服这个缺点小说提出了初始化技术。小说初始化技术包括两个步骤即光谱Co-clustering顶点,将限制使用谱约束的原型。提出了初始化的实验技术是进行两个UCI机器学习库数据集。数据集使用的数据集是肺癌和淋巴管造影数据集。从结果,表明提出的聚类精度初始化技术使用谱约束原型对标准k - means很高相比,DPDA k - means并使用CSC k - means。此外,实验部分还表明,该初始化技术需要非常少的时间比其他方法执行。

引用

  1. 施勇、张通用电气、“改进的聚类分析算法研究”,国际会议消费电子、通信和网络(CECNet), 598 - 601年,2011页。
  2. b . Chen pc Tai和r·哈里森和一锅“小说混合hierarchical-K-means聚类方法(H-K-means)微阵列分析”,IEEE计算系统生物信息学大会上,105 - 108年,2005页。
  3. 注:布拉德利和U.M.法耶兹”,改进k - means聚类的初始点,”ACM,学报》第15届国际会议在机器学习,91 - 99年,1998页。
  4. 燕,剑,Caiyan贾庆林,k -均值聚类使用亲和力传播“初始化”,第九次国际会议上混合智能系统(他的“09年),1卷,第343 - 338页,2009年。
  5. 浩平表示Arai和阿里Ridho Barakbah”,分层的k - means: k - means质心算法初始化”,传奇大学36卷,第一,25-31,2007年。
  6. Madhu Yedla, Srinivasa Rao Pathakota和t . m . Srinivasa“加强与改进的k - means聚类算法的初始中心”,1卷,121 - 125年,2010年。
  7. 希Aradhya,弗朗西斯科·Masulli和斯特凡诺Rovetta”Biclustering微阵列数据的基于模块化的奇异值分解”,CIBB学报》2009
  8. f .元,孟Z.H. H.X.张董C.R.和c R,“新算法得到初始质心,“Proc.第三国际会议在机器学习和控制论,2004年8月页26 - 29日。
  9. b·博拉和位Bhattacharyya”,一种改进Sampling-based DBSCAN大型空间数据库”。国际会议的程序智能传感和信息,92年,2004页。
  10. 布莱恩·s·埃维里特,“聚类分析”。第三版,1993年版。
  11. m . Halkidi y Batistakis和m . Vazirgiannis“ClusteringValidity检查方法:第二部分”。诉讼的ACM SIGMOD国际会议管理的数据,问题3卷31日pages19 - 27, 2002年9月。
  12. 杰明吴、Wenhu Yu”,优化和改善基于k - means聚类算法”,第二国际研讨会上知识获取和建模(金' 09),3卷,第339 - 335页,2009年。
  13. 尤克鲁格,Ronen Basri,约瑟夫·t . Chang和马克•格斯坦”微阵列数据的光谱Biclustering: Coclustering基因和条件”,基因组研究,基因组RES 13卷,第4号,第716 - 703页,2003年。
  14. 晓晓,魏风扇和Philip s . Yu“高效Semi-supervised光谱Co-clustering约束”,IEEE国际会议上的数据挖掘,1043 - 1048年,2010页。
  15. “安全火花型Dhillon, Co-clustering文档和使用双方的光谱图分区”,第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,2001。
  16. j·史和j·马利克,规范化的削减和图像分割,IEEE模式分析与机器智能,8号,第22卷,第888 - 905页。2000年。