所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

划分聚类方法对异常值检测

女士Neeraj邦萨尔说1,Mr.Amit丘格2
  1. 学生,计算机科学部门,Lingaya大学法里达巴德,印度
  2. 助理教授,计算机科学部门,Lingaya大学,法里达巴德,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据挖掘是一个过程提取隐藏的和有用的信息从数据挖掘和知识发现的数据是未知的,可能有用的,有效的和高质量的。有几个数据提取技术存在。聚类是其中的技术之一。在集群技术,我们形成了群相似的对象(相似的距离或可能有其他因素)。异常检测是数据挖掘的一个分支有很多重要的应用程序和数据挖掘社会更值得关注。因此,重要的是要从提取的数据检测离群值。有很多技术现有的检测离群值但集群是一种高效的技术。在本文中,我将不同的聚类技术的结果的时间复杂度,提出了一种新的解决方案通过添加模糊性现有集群技术。

关键字

聚类、数据挖掘、异常检测、数据挖掘

介绍

数据挖掘的分析步骤是“在数据库知识发现”过程,或知识发现(KDD)),一个相对年轻的和跨学科领域的计算机科学,是一个过程,试图发现模式在大型数据集。它利用交叉的方法人工智能,机器学习,数据和数据库系统。现在,数据挖掘已经成为一个重要的技术,将数据转换成有价值的信息。常用在一系列广泛的分析实践,如营销、欺诈检测和科学发现。数据挖掘是从数据提取模式的方法。采矿过程将是无效的,如果上层躯体的样品不好表示的数据。因此,重要的是要检测提取是否对我们有用或不是。离群值的集合对象,从剩余的数据大大不同。异常检测是一个极为重要的问题,直接应用在广泛的应用领域,包括欺诈检测、识别计算机网络入侵和瓶颈,在电子商务犯罪活动和检测可疑活动。提出了不同的方法来检测异常值。
异常值检测:异常检测是一个任务,发现不同的对象或不一致对剩下的数据或远离他们的集群重心。未能检测到异常值或者无效的处理可以有严重影响的强度推论排水的锻炼。有大量的技术可用来执行这个任务,由于没有标准算法存在检测它。下面是一些算法用于检测离群值。
现有的算法检测例外:

基于距离的孤立点检测的

基于距离的方法,检测到异常值如下。距离测量在一个空间,一个点k数据集是局外人对于参数M和d,如果有比M点问的距离d内,在M和d的值是由用户决定。这种方法的问题是,很难确定M和d的值。

基于分布的异常值检测

开发统计模型(通常为正常行为)从给定的数据,然后运用统计检验来确定对象是否属于这种模式。对象,属于低概率统计模型声明为离群值。然而,发布出去是依靠方法不能应用于多维场景,因为它们在本质上是单变量。此外,数据分布的先验知识,使得发布出去是依靠方法很难用于实际应用。

基于密度的离群值检测

在低密度区域的空间被标记的对象。
劣势:基于密度的模型需要精心设置的几个参数。它需要二次时间复杂度。

集群基于孤立点检测的

考虑集群的小尺寸为集群的局外人。在这些方法中,小集群(即。集群包含分显著低于其他集群)被认为是离群值。clusteringbased方法的优点是,他们不需要监督。此外,clustering-based技术能够用于增量模式。
有各种基于聚类的孤立点检测方法提出了它们:

答:PAM(分区Medoid):

PAM使用k-medoid聚类的方法。很健壮与k - means相比存在噪声和离群值。主要包含两个阶段构建阶段和交换阶段。
构建阶段:这一步是按顺序选择k对象集中的位置。作为kmedoids k对象。交换阶段:计算每一对选择和非选择性的总成本对象。
PAM过程:
•输入数据集D
从数据集G•k随机选择对象
•计算选定的总成本为每一对T Sh Si和非选定的对象
•为每一对如果T si < 0,那么它是取代了Sh
•然后找到类似medoid未被选中为每个对象
•重复步骤2、3和4,直到找到medoids。

克拉拉(聚类大型应用程序):

克拉拉介绍了克服PAM的问题。这是比PAM在较大的数据集。This 方法 只 需要 一 个 样本 数据 集 的 数据 而 不是 充分 数据 集 It 随机 选择 数据 和 选择 medoid 使用 [1]. PAM 算法

克拉拉的过程

1。i = 1到5,重复步骤2到5。
2。画一个样本的40 + 2 k对象随机从整个数据集和调用PAM算法找到k medoids的样本。
3所示。每个对象O在整个数据集,确定k-medoids最类似于O。
4所示。计算的平均不同集群从步骤3。如果这个值小于当前最小值,使用新的值作为当前最小值和保留在步骤2 k medoids发现最好的一组medoids迄今为止获得的。
5。回到步骤1开始下一次迭代。

c . CLARANS(基于随机搜索聚类大型应用程序):

这种方法类似于PAM和克拉拉。它始于medoids随机的选择。它吸引了动态邻居。它检查交换”马克斯的邻居”。如果两人是负的,那么它选择另一个medoid集。否则它选择当前选择medoids作为局部最优和重启medoids随机的新选择。最好停止这个过程,直到返回。
CLARANS过程:
•输入参数numlocal和max的邻居。
•选择k D随机对象从数据库对象。
•这些K对象标记为选定的Si和所有其他非选定的Sh。
•计算选定Si T成本
•如果T -更新medoid集。否则medoid选为局部最优选择。
•重新选择另一组medoid,找到另一个局部最优。
•CLARANS停止,直到最好的回报。

d .增强CLARANS (ECLARANS):

这种方法不同于PAM,克拉拉和CLARANS。因此产生方法改善异常值的准确性。ECLARANS是一种新的分区算法的改进CLARANS形成集群与选择适当的任意节点,而不是选择随机搜索操作。CLARANS算法相似,但这些选中的任意节点减少CLARANS的迭代次数。

ECLARANS过程:

1。输入参数numlocal maxneighbour。初始化我1,mincost大量。
2。计算每个数据点之间的距离
3所示。选择n最大距离数据点
4所示。设置当前的任意节点n: k
5。j设置为1。
6。考虑随机邻居的电流,并根据6,计算两个节点的成本差异。
7所示。如果S有一个较低的成本,设置当前的年代,去一步
8。否则,j的增量为1。如果j马克斯的邻居,转到第六段
9。否则,当j > maxneighbour mincost比较当前的成本。如果是前者小于mincost, mincost设置为当前的成本和设置当前的最佳节点。增加我的1。如果我> numlocal、输出最佳节点和停止。否则,转到步骤4

对比上面的方法:

以上算法是在java中实现(使用java Eclipse IDE)。然后,时间复杂度比较即由他们使用以上方法检测离群值。我的数据集和应用上述算法,产生不同的结果。下面是显示的表和图的比较以上所述算法的时间复杂度。

结论

数据挖掘是提取数据从数据集的过程。因此,异常值检测以来,数据挖掘成为重要的过程如果我们进行离群值,它可以创建问题进一步分析。有不同的算法检测异常值的存在。正如我们所见,其中ECLARANS是最好的技术。需要较少的时间来检测异常。
未来,进一步发展在孤立点检测的方法。更多的工作被完成的基础上,在集群技术的模糊方法。它有助于检测离群值的不精确和不完整的数据集。

数据乍一看

图1
图1

引用

  1. Vijayarani和s . Nithya“孤立点检测的一种有效的聚类算法”,ConferenceWorkshops计算机软件和应用程序。

  2. Al-Zoubi, m(2009)的有效Clustering-Based方法异常值检测、欧洲科学研究杂志》上。

  3. 江,s和一个,问:(2008),基于聚类的孤立点检测方法第五模糊系统和KnowledgeDiscovery国际会议。

  4. 约翰·彼得。年代。,Department of computer science and research center St.Xavier‟s College, Palayamkottai, An Efficient Algorithm for LocalOutlier Detection Using Minimum Spanning Tree, International Journal of Research and Reviews in Computer Science (IJRRCS), March 2011.

  5. Loureiro,。,Torgo, L. And Soares, C. (2004) Outlier Detection using Clustering Methods: A Data Cleaning Application, in Proceedings ofKDNet Symposium on Knowledge-Based Systems.

  6. 克诺尔,大肠和Ng, r (1997)。一个统一的方法来挖掘异常值。Proc。知识发现(KDD),页219 - 222。

  7. 马库斯·m·Breunig汉斯Kriegel,雷蒙德·t·Ng“LOF:确定density-based局部离群值”,Jorg桑德,2000 ACM SIGMODinternational会议管理的数据,页93 - 104,美国,纽约,纽约,美国

  8. 伊恩·h·威滕和Eibe弗兰克·摩根考夫曼,“数据挖掘:实用机器学习工具与Java实现”,圣Francisco2000

  9. Perarson r·K。,”Outliers in process modeling and identification,” IEEE Transactions on Control Systems Technology, pp.10, 55-63, 2002.

  10. Ramaswamy年代。,Rastogi R。垫片K。,”Efficient algorithms for mining outliers from large data sets,” In Proceedings of the ACM SIGMODInternational Conference on Management of Data, Dalas, TX, 2000.

  11. 哈迪,促销,A.H.M.R. Imon, and M. Werner, ―Detection of outliers,- Computational Statistics, vol. 1, 2009, pp. 57-70