所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

一种新型集体邻居集群在高维度数据

Sudha.N1,Sneka Arulraj2
  1. 计算机科学系助理教授,主教Appasamy艺术与科学学院,印度哥印拜陀
  2. 研究学者、计算机科学系、主教Appasamy艺术与科学学院,印度哥印拜陀。
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

集群变得困难由于越来越稀疏的这些数据,以及增加难以区分数据点之间的距离。该方法称为“内核技巧”和“集体邻居集群”,将作为输入对数据点之间的对应措施。实值交换中心之间的数据点,直到一组高质量的模式和相应的集群逐渐浮出水面。来验证我们的理论证明hubness高质量测量的点在集群highdimensional信息中心,提出几个hubness-based聚类算法,表明主要中心可以有效地使用集群原型或指南在寻找centroid-based集群模式。实验结果表明我们提出的算法的良好性能在多方面的设置,主要集中在大量重叠的噪音。拟议的方法修改主要用于检测大约超球面需要扩展到集群和妥善处理任意形状的簇。

关键字

集群、高维度、集体邻居,中心

介绍

一般聚类是一种无监督的过程元素分组在一起,所以元素分配给相同的集群相似比其余的数据点[1]。这一目标在实践中往往难以实现。多年来,人们提出了各种聚类算法,大致可分为四组:partitional、层次结构、基于密度和子空间算法。从第四组搜索算法集群在一些低维投影的原始数据,处理数据时,通常首选高维[2],[3],[4],[5]。
这种偏好的动机在于观察到有更多的尺寸通常会导致所谓的诅咒的维度,在许多标准机器学习算法的性能成为受损。这主要是由于两个普遍的影响:空间现象和浓度的距离。前者指的是所有的高维数据集的事实往往是稀疏的,因为所需的点代表任何分布随维数增加呈指数增长。这导致糟糕的密度估计highdimensional数据,给density-based方法带来困难。后者是一个有点违反直觉的高维数据表示的属性,所有数据点之间的距离会变得难以区分随着维数的增加,这可能会导致问题的基于距离的算法[6],[7],[8],[9]。
本文的贡献主要有两种。首先,在合成实验数据表明hubness是一个很好的测量的点在一个高维数据中心集群和集群主要中心可以有效地使用原型。此外,我们建议内核映射和集体邻居各高维聚类算法和评估他们的表现,semi-supervised数据聚类任务

相关工作

在[2]中作者讨论非常一般的投影聚类技术可以构建集群的任意子空间维数较低的保持一致。子空间是特定于集群本身。这个定义是通用和现实大大超过现有技术限制的方法只有从原始组属性预测。广义投影聚类技术也可以被视为一种试图重新定义为高维聚类应用程序通过寻找隐藏的子空间簇由inter-attribute相关性。在[3]中作者使用了一个生命科学等应用领域,如分子生物学产生大量的数据,可以不再是管理不高效和有效的数据挖掘方法的帮助。数据挖掘的主要任务之一是集群。然而,传统聚类算法往往无法检测到有意义的集群由于高维,固有的稀疏特征空间的最真实的数据集。然而,数据集通常包含集群隐藏在原始特征空间的各个子空间。传统聚类算法的一个预处理步骤,检测所有有趣的高维数据子空间包含集群。为此,我们定义一个质量标准的有趣的一个子空间,提出一个有效的算法称为RIS(排名有趣的子空间)检查所有这样的子空间。 In [4] discussed the primary data mining tasks is clustering. However, traditional clustering algorithms often fail to detect meaningful clusters because most real-world data sets are characterized by a high dimensional, inherently sparse data space. Nevertheless, the data sets often contain interesting clusters which are hidden in various subspaces of the original feature space. In [5] authors improved the conclusive evaluation and comparison is challenged by three major issues. First, there is no ground truth that describes the "true" clusters in real world data. Second, a large variety of evaluation measures have been used that reflect different aspects of the clustering result. Finally, in typical publications authors have limited their analysis to their favored paradigm only, while paying other paradigms little or no attention. In [6] authors proposed the dimensionality curse from the point of view of the distance metrics which are used to measure the similarity between objects. The specifically examine the behavior of the commonly used Lk norm and show that the problem of meaningfulness in high dimensionality is sensitive to the value of k. For example, this means that the Manhattan distance metric L1-norm is consistently more preferable than the Euclidean distance metric L2-norm for high dimensional data mining applications. Using the intuition derived from our analysis, we introduce and examine a natural extension of the Lk-norm to fractional distance metrics. In [7] authors considered a nearest neighbor search and many other numerical data analysis tools most often rely on the use of the Euclidean distance. When data are high dimensional, however, the Euclidean distances seem to concentrate; all distances between pairs of data elements seem to be very similar. Therefore, the relevance of the Euclidean distance has been questioned in the past, and fractional norms (Murkowski-like norms with an exponent less than one) were introduced to fight the concentration phenomenon.

算法

答:协会中心的映射
之间的关联(即低hubness元素。anti-hubs)和异常值也被观察到。low-hubness得分表明,平均一个点远离其他的点,因此可能局外人。在高维空间中,然而,低数据点元素预计将出现通过这些空间的本质和数据资源。内核映射可以应用使用更一般的概念的相似度,相似之处可能是积极的还是消极的。算法的输出不变如果相似比例和/或抵消一个常数(只要偏好缩放和/或抵消由同一常数)。
吗?计算适应度衡量一组可能的集群,然后选择集群候选人的集合点(中心)之间的那些优化所使用的测量。
吗?识别特定的集群顶点或集团所有的顶点为一组集群,然后现在可能集群健身措施,为产生集群通过比较不同分组的方法和选择一个满足或优化一定标准。
集群的比率是最低金额度集群内部或外部。适应度函数是所有邻国和评估结果用于选择邻居搜索将会继续。
b .内核映射
可以指定分支的程度与一个内核直接应用于相似矩阵k。结果表明,生成的集群仍然可以单调根据连杆测量即使使用诱导不同措施不再超指标。使用两两合并簇;额外的收缩过程提出了生成主题相关组织有超过两个集群元素。
吗?确定一个值的程度的过程属于一组内核
吗?返回的值由Collective-Neighbor集群
吗?大多数变量在hub-based系统中有多个数据点连接
吗?内核映射变量包括脆值通过每个邻居附加价值
c . Collective-Neighbor集群
Collective-Neighbour聚类算法数据点之间的消息传递工作。每个数据点(中心)接收别人的可用性数据点(模式)和责任的信息发送给其他数据点(模式)。和责任和可用性的数据点识别集群模式。高维数据点可用性(i (k)为零:(i (k) = 0, R (i (k)设置为输入点和点之间的相似性k为模式,-我最大的相似之处和其他候选人的模式。
这种方法计算两种数据点之间交换的消息。第一个是所谓的“责任”r (i, j):从数据点发送我候选人范例点j和它反映了累积的证据如何wellsuited j是作为我的榜样。第二个消息叫做“可用性”(i, j):从候选人发送范例j点到我点,它反映了累积的证据是多么合适的供我选择点j作为范例。开始时,可用性是初始化为零:(i, j) = 0。更新方程r (i, j)和(i, j)写成,
图像
图像
此外,在每个消息吗?年代数据点之间的交换,一个阻尼因素? ? ?添加[0,1],以避免可能出现的数值振荡在某些情况下:
图像
图像
在R = (R (i, j))和= ((i, j))代表职责矩阵和可用性矩阵,分别和t表示迭代次数。上述两条消息更新迭代,直到他们达到指定值或者当地的决策保持不变的迭代次数。

伪代码

步骤1:加载高维数据集。
步骤2:计算协会地图基于健身措施。
步骤3:检查分支元素的程度根据健身价值。
第四步:计算整个集群空间能量选择输入查询使用eq。(1)。
第五步:每个集群的可用性的基础上使用eq责任。(2)
第六步:计算两个点之间的集群消息传递使用eq。(3)和(4)
第七步:转到第2步。
第八步:结束。

仿真结果

仿真研究工作已经评估使用三个数据集从两个不同的领域:美国小姐两部分——数据集(cs.joensuu.fi / sipu /数据/),实习医师垃圾邮件数据库域(archive.ics.uci.edu/ml/datasets.html)。评估过程的第一个目标是确定最合适的设置为每个域。研究工作的两个不同的分割标准,可用于诱导的离群值。标准不同于彼此在不同的方面,分别适合不同类型的域。在两个数据(异常数据点)滥用和电影推荐系统领域,论文工作发现,当不例外,所有四个标准产生相似的结果的准确性(bySilhoutte指数衡量)。
这些实验的聚类质量是衡量两个质量指标,轮廓指数和隔离指数[10],衡量一个百分比的k近邻点聚集在一起。在第一实验装置,由两部分组成的美国小姐的数据集(cs.joensuu.fi / sipu /数据/)被用于评估。每部分包含6480个实例有16个维度。结果比较各种预定义的数字集群算法的调用。每个算法测试50倍为每个集群的数量。邻域大小5。
的结果数据集的两个部分表1中给出。集体邻居集群(CNC)明显优于GHPC和其他hubness-based方法。这表明中心可以作为良好的集群中心原型。另一方面,超球面方法有其限制和内核k - means集群取得最好的质量在这个数据集。只有一个质量GDBScan估计是给定的,因为它会自动确定集群的数量。

结论和未来的工作

仿真结果表明,该算法与现有的聚类算法性能更好。该算法为“内核技巧”提供了“集体邻居集群”可以很容易地扩展到包含额外的双向约束等要求标签进入相同的观点在同一集群中心只有一层功能。模型是足够灵活的信息而不是明确的约束,如两个点在不同的集群甚至高阶约束(例如,两三个点必须在同一集群)。适用于真正的数据集,我们需要完善的邻接矩阵算法,说,这是值得追求的未来的研究领域。

表乍一看

表的图标
表1

数据乍一看

图1
图1

引用











全球技术峰会