在线刊号(2320-9801)印刷刊号(2320-9798)
基于概率最大化算法的高效不确定数据点聚类
不确定数据聚类是挖掘不确定数据的重要任务之一,对不确定对象之间的相似性建模和开发有效的计算方法提出了重大挑战。现有的方法将传统的划分聚类方法(如k-means)和基于密度的聚类方法(如DBSCAN和Kullback-Leibler)扩展到不确定数据,从而依赖于对象之间的数值距离。研究了位置不确定的数据对象的聚类问题。数据对象由定义了概率密度函数(pdf)的不确定性区域表示。所提出的方法基于广义概率准则的最大化,这可以解释为数值模型与不确定澄清之间的一致程度。我们提出了PM算法的一个变体,迭代地最大化这个度量。举例说明,该方法应用于使用有限混合模型的不确定数据聚类,在分类和连续属性的情况下。我们大量的实验结果验证了我们的方法的有效性、效率和可扩展性。
c .迪皮卡,r .兰加拉杰