关键字 |
集群、不确定数据点算法,密度估计混合模型。 |
介绍 |
近年来激增的兴趣的方法管理和挖掘不确定数据[1],[2],[3]。指出[1],[4],[5],不确定的数据出现在许多应用程序中由于底层设备的局限性(例如,不可靠的传感器或传感器网络),使用归责,内插或外推技术(估计,例如,移动物体的位置),部分或不确定的反应调查,等等。 |
聚类不确定数据已经被认为是一个重要的问题[6]。一般来说,一个不确定的数据对象可以表示为一个概率分布[7]。聚类问题的不确定对象根据其发生的概率分布在许多场景。 |
例如,在市场调查,用户被要求评价数码相机通过在各个方面得分,如图像质量,电池性能、射击性能和用户友好。每个相机可能被许多用户得分。因此,可以将相机的用户满意度建模为一个不确定的用户评分空间对象。经常有很多摄像机下的用户研究。经常分析任务是集群下的数码相机根据用户满意度研究数据。 |
在这个集群任务的一个挑战是,我们不仅需要考虑摄像机之间的相似性的得分值,而且他们的分数分布。一个摄像头获得高分是不同的从一个接收低分数。与此同时,两个摄像头,虽然相同的平均评分,如果他们有很大的不同分数差异是非常不同的。另外一个例子,一个气象站监测天气条件包括各种测量温度,降水,湿度、风速和方向。每天的天气记录 |
每天都会变化,可以建模为一个不确定的对象由一个分布在空间形成的几个测量。我们可以组的天气条件在上个月站在北美?本质上,我们需要集群根据其分布的不确定的对象。 |
在应用程序需要与现实世界的互动,如定位服务[8]和传感器监测[9],数据的不确定性是一个固有财产由于测量误差,抽样误差,过时的数据源或其他错误。尽管许多研究工作一直在针对不确定数据的管理数据库,很少有研究者解决挖掘不确定数据的问题。我们注意到,与不确定性,数据值不再是原子。应用传统的数据挖掘技术,不确定的数据必须总结成原子值。不幸的是,差异的总结记录值和实际值可能严重影响挖掘结果的质量。图1说明了这个问题,当一个聚类算法应用于移动对象位置的不确定性。如果我们仅仅依靠记录值,许多对象可能被放在错误的集群。更糟糕的是,集群的每个成员将改变集群质心,从而导致更多的错误。 |
最近工作不确定数据挖掘,概率理论经常被作为一个正式的框架表示数据的不确定性。通常情况下,一个对象表示为概率密度函数(pdf)属性空间,而不是单点时通常认为不确定性是被忽视的。这种数据挖掘技术,提出了包括聚类算法[10],[11]密度估计技术,异常值检测[12],[13],支持向量分类决策树[5]等。 |
数据通常与不确定性有关由于测量误差,采样误差、过时的数据源,或者其他错误。数据不确定性可以分为两种类型,即存在不确定性和价值的不确定性。在第一类不确定对象或数据元组的存在与否。例如,在关系数据库中元组可以被关联到一个概率值,表明它的存在的信心。价值的不确定性,数据项是描述为一个封闭的区域范围内其可能值,连同它的值的概率密度函数。这个模型可以用来量化的不精确位置和传感器数据在一个不断发展的环境。 |
本文组织如下。在第二节,提供相关工作的基于密度的聚类和Kmeans + +集群。第三节介绍了集体邻居聚类算法。第四部分说明了实验并提出一些讨论的结果。最后,在第五节总结我们的工作。 |
二世。相关工作 |
聚类是数据挖掘的基本任务。集群中的某些数据已经研究多年数据挖掘、机器学习、模式识别、生物信息学,以及其他一些领域[14],[15]。然而,只有初步研究聚类不确定数据。 |
答:基于数值距离聚类 |
Ngai等。[16]提出了UK-means方法扩展了k - means方法。UK-means方法措施之间的距离不确定对象和集群中心(某种程度上),预期的距离。最近,李et al。[17]表明,UK-means方法可以减少到k - means方法在某些数据点。UK-means基本上遵循众所周知的k - means算法除了它使用预期的距离在决定应该分配到哪个集群对象。第二个算法使用的想法min-max距离修剪在UK-means减少预期的目标距离计算。UK-means首先随机选择k点作为集群的代表。计算积分,每个样本到指定集群的距离,然后通过寻找距离之和近似积分,相应的概率密度加权的样本点。的准确性,成千上万的样品是必要的。因此预计距离计算计算昂贵的操作。 |
b .集群基于分享相似 |
集群分布出现在信息检索领域的集群文件[5]。这个工作的主要区别是,我们不承担任何知识的类型分布不确定的对象。当聚类文档,每个文档建模为多项分布在语言模型中。例如,徐和克罗夫特[18]讨论了k - means聚类方法与KL分歧多项分布的文档之间的相似度测量。假设多项分布,KL可以使用出现的次数计算散度项文件。Dhillon等。[19]使用KL散度来衡量相似单词之间集群单词在文档中为了减少文档的数量特征分类。他们开发了一种k - means聚类算法和显示算法单调减小目标函数所示[9],并最小化intra-cluster Jensen-Shannon分歧而最大化intercluster Jensen-Shannon散度。作为他们的应用程序在文本数据,每个单词是一个离散随机变量空间的文档。因此,对应的离散情况我们的问题。k - means迭代迁移集群算法基于师分歧KL散度的一般情况。 They summarized a generalized iterative relocation clustering framework for various similarity measures from the previous work from an information theoretical viewpoint. They showed that finding the optimal clustering is equivalent to minimizing the loss function in Bregman information corresponding to the selected Bregman divergence used as the underlying similarity measure. In terms of efficiency, their algorithms have linear complexity in each iteration with respect to the number of objects. However, they did not provide methods for efficiently evaluating Bregman divergence nor calculating the mean of a set of distributions in a cluster. For uncertain objects in our problem which can have arbitrary discrete or continuous distributions, it is essential to solve the two problems in order to scale on large data sets, as we can see in our experiments. |
三世。算法 |
该系统是基于最大概率估计的不确定数据聚类算法。我们首先描述一个不确定的数据模型中数据不确定性是由信仰功能;这个模型包含概率数据,区间值数据和模糊数据作为特殊情况。提出系统介绍(Probability-maximization)算法的扩展点,称为证据点(P2M)算法,允许我们在参数估计参数统计模型基于不确定数据。提出了系统图1所示。 |
答:点算法 |
点算法是一个普遍适用的机制来计算最大概率估计(mp)不完整的数据,在最大概率估计的情况下会简单。完整的EMAlgorithm学习算法1中列出。 |
点算法方法问题的可能性最大化观测数据日志记录L(θ;概率)通过迭代进行完整数据日志记录L(θ;日志px x) = (x;θ)。在每个迭代的算法包括两个步骤被称为概率步骤(P-step)和最大化步骤(M-step)。 |
E-step需要的计算, |
|
θ(q)表示当前的θ在迭代q和Pθ(q)[·|]表示概率对X给定的条件分布,使用参数向量θ(q)。 |
然后M-step在于最大化Q(θ;θ(q))对参数空间Өθ,即。,发现θ(q + 1), q(θ(q + 1);θ(q)≥q(θ;θ(q))为所有θЄӨ。E -和M-steps迭代直到区别L(θ(q + 1);)- l(θ(q);)变得小于一些任意少量。 |
|
在L(θ(q);pl)是离散情况,(2)在连续的情况。在迭代q,以下函数是这样计算: |
在离散情况下,或在连续的情况。 |
M-step不变,需要最大化Q(θ;θ(q)关于θ。E2M算法交替重复上面的E -和M-steps直到观测数据的增加可能性变得小于某个阈值。 |
四、算法1:伪代码 |
输入:要求:X L pl,θ和q |
输出:集群的输出。 |
要求:A:可用集群空间R:资源(数据点),我(迭代),相似之处。 |
步骤1:初始化Q(θ),Q (X) px, Q(Ө),随机Q (T) |
第二步:重复 |
步骤3:更新Q L (X)是一个任意的分布。 |
步骤4:更新问使用eq(θ)。(1) |
第五步:更新px概率质量函数使用eq。(2) |
第六步:计算的值用情商日志基于概率密度的可能性。(3) |
第七步:创建集群在离散情况下通过分配每个概率到一个集群,归属概率最大化使用eq。(4) |
第八步:直到收敛 |
第九步:返回Q (X)和px (X) |
第十步:结束 |
诉仿真结果 |
广泛的实验合成和真实数据集评估点算法的有效性作为聚类的相似性测量不确定的数据和技术评估点的效率差异。实验在计算机上的英特尔酷睿2双核P8700 2.53 GHz CPU和2 GB内存运行windows xp (sp2)。所有程序运行内存。 |
连续和离散域的数据集。在连续情况下,一个不确定的对象是一个样本来自一个连续分布。在离散情况下,一个数据集是由连续的情况下将一个数据集。我们离散连续域划分成一个网格。每个维度都是同样分成两部分。因此,采用空间分为2 d细胞的大小。我们使用中央的细胞在离散域值。一个对象在一个细胞的概率的概率的总和所有采样点在这个细胞。 |
上面的算法应用到数据表1所示。这个数据集是由n = 6观察,其中一个(我= 4)是不确定的,依赖于一个系数。在这种特殊情况下,假定pl4 (0) + pl4(1) = 1,即。,相应的质量函数mi是贝叶斯。 |
结果如表2和图3所示。时,算法停止两次迭代之间的相对增加的可能性还不到10 - 6。从初始值θ(0)= 0:3,5次迭代后是满足此条件。最后的标定是θ= 0:6。这是最小化θ的价值之间的冲突不确定数据表1中给出。 |
六。结论 |
摘要点是出于我们的兴趣不确定数据聚类算法的离散和连续的阶段。我们探索基于相似性聚类不确定数据分布。我们提倡使用Probability-maximization算法作为概率相似性度量,并系统地定义点对象之间的分歧在连续和离散情况。我们集成点发散到分区和density-based聚类方法来演示使用点散度聚类的有效性。 |
然后我们建议的方法寻求未知参数的值,广义概率最大化标准,可以被解释为一个角度之间的协议参数模型和不确定的数据。这是通过使用证据点算法,这是一个简单的扩展经典点的算法,证明了收敛性质。 |
表乍一看 |
|
|
数据乍一看 |
|
|
引用 |
- 美国Abiteboul、pc Kanellakis和g . Grahne一个¢集表示和查询的可能的世界,一个¢Proc。ACM SIGMODIntA¢l相依管理数据(SIGMOD), 1987年。
- 核磁共振Ackermann, j . BloA¨梅尔,c . sohl,一个¢聚类指标和措施)距离,¢Proc。安。ACM-SIAM计算机协会。离散算法(苏打水),2008年。
- m . Ankerst M.M. Breunig H.-P。Kriegel, j·桑德¢光学:订购点识别聚类结构,一个¢Proc。ACMSIGMOD IntA¢l相依管理数据(SIGMOD), 1999年。
- A . Banerjee s Merugu安全火花型Dhillon, j . Ghosh一个¢集群与师分歧,一个¢j .机器学习研究,6卷,pp.1705 - 1749, 2005。
- 布莱D.M. A.Y. Ng, M.I.乔丹,一个¢潜在狄利克雷分配,一个¢j .机器学习研究,3卷,第1022 - 993页,2003年。
- H.-P。Kriegel和m . Pfeifle一个¢Density-Based不确定数据的聚类,一个¢Proc。ACM SIGKDD IntA¢l相依。知识发现inData矿业(KDD), 2005年。
- r . Cheng的官员卡拉什尼科夫冲锋枪,角色,一个¢评估概率查询不精确的数据,一个¢Proc。ACM国际商标SIGMOD¢l Conf.Management (SIGMOD)的数据,2003年。
- 沃尔夫森,O。,Sistla, P., Chamberlain, S. and Yesha, Y.: Updating and Querying Databases that Track Mobile Units. Distributed andParallel Databases, 7(3), 1999.
- 程,R。,Kalashnikov, D., and Prabhakar, S.: Querying Imprecise Data in Moving Object Environments. IEEE TKDE, 16(9) (2004)1112-1127.
- H.-P。Kriegel和m . Pfeifle一个¢Density-based不确定数据的聚类,一个¢诉讼的十一ACM SIGKDD internationalconference在数据挖掘的知识发现。美国伊利诺斯州芝加哥:ACM, 2005年,页672¢677。
- c . c . Aggarwal一个¢基于密度转换为不确定的数据挖掘,一个¢在IEEE 23日数据工程国际会议(2007年ICDE),伊斯坦布尔,2007年,页866¢875。
- c . c . Aggarwal和p s Yu¢孤立点检测的不确定数据,一个¢暹罗这国际会议的程序(SDM(2008),亚特兰大,乔治亚州,美国,2008年,页483¢493。
- j . Bi和t . Zhang¢支持向量分类与输入数据的不确定性,一个¢进展的神经信息处理系统17日L。k .扫罗、y维斯和l . Bottou Eds。剑桥,麻州:麻省理工学院出版社,2005年,页161¢168。
- 汉和m . Kamber,数据挖掘:概念与技术。爱思唯尔,2000年。
- l·考夫曼和P.J. Rousseeuw,找到组织数据:介绍了聚类分析。威利,1990年。
- W.K. Ngai, b . Kao C.K.崔,r . Cheng m .洲和K.Y. Yip¢高效聚类的不确定的数据,一个¢Proc。第六IntA¢l相依。这(ICDM), 2006年。
- 李,时任b . Kao, r . Cheng A¢减少Uk-Means k - means, A¢Proc, IEEE IntA¢l相依数据挖掘研讨会(ICDM), 2007年。
- 徐和b克罗夫特,一个¢基于集群的分布式检索语言模型,一个¢Proc。22日安。IntA¢l市立图书馆Conf。研发在信息检索(SIGIR), 1999年。
- 美国安全火花型Dhillon, Mallela, r·库马尔一个¢的信息理论特性为文本分类聚类算法,一个¢J。机器学习研究,3卷,pp.1265 - 1287, 2003。
|