关键字 |
数据流、数据流聚类异常值检测、治疗,k - means, CLARANS |
介绍 |
数据挖掘是广泛的研究领域的研究区域,那里的大部分工作是在知识发现强调,在数据流是数据挖掘的一个研究领域,因为数据流数据庞大,fastchanging、无限、连续流和无限的。数据流的应用范围可以从科学和天文应用重要的商业和金融的因此,实时分析和挖掘数据流已经吸引了大量的研究。数据流聚类挖掘数据流区,自聚类算法安排数据集分成多个独立组,这样分在同一组是相互关联和其他团体无关,根据一些相似性度量。为了使用在数据流聚类,生成的需求[14]整体优质集群没有看到旧的数据,高质量,高效的增量式聚类算法和分析多维空间。有几种类型的集群技术对于异常值检测非常有用。分层算法创建一个对象的层次分解和烧结的自底向上或分裂的自上而下的。烧结的算法从每个对象开始,先后合并组根据距离测量,而集群可能不再当所有对象在一个集团或其他任何时候用户希望和这些方法称为贪婪的自下而上的合并。分裂算法[6]遵循相反的方法,它始于一群所有对象,先后组织分割成较小的、直到所有对象分为单一集群,将被优先考虑。分区算法构造各种分区的数据元素,然后通过某些标准评估它们。 |
基于密度的算法(DBSCAN)已经被用于大型嘈杂的数据集的聚类空间数据。DBSCAN介绍了社区的概念作为一个地区在一个球体半径和包括一个最小数量的数据点。连接社区形成集群,从而离开球形集群的概念。它产生集群根据density-based连接性分析。为了执行聚类在数据流中,我们不能保存所有传入的数据对象由于有限的记忆。事务聚类算法CLU-TRANS一直主要用于两个组件在线和离线交易基于滑动窗口,每个滑动窗口已经分配给等于最小的聚类粒度,以确保集群时间最小粒度。数据流聚类方法是高度有用的检测异常值和异常值检测的数据挖掘任务,否则称为离群挖掘。活跃的孤立点检测在流数据从数据挖掘研究领域,旨在检测对象有不同的行为,比普通对象异常。局外人是一个对象[8]显著不同的或不一致的其他数据对象而电信、欺诈检测,web日志,点击web文档流和数据流异常检测的应用领域。有很多的异常检测算法在静态和存储的数据集是基于多种方法如基于距离的孤立点检测的,基于密度的离群值检测、基于最近邻的异常检测和基于聚类的离群值检测等等。 The rest of this paper is followed as Section 2 illustrates the review of literature. Section 3 explains about the Cure with K-Means and CURE with CLARANS clustering algorithms used to detect outliers in data streams. Experimental results are discussed in Section 4 and Conclusions are given in Section 5. |
文献综述 |
出版社Sudipto Guha([12]提出了一种聚类算法称为治愈和用于检测离群值。治疗达到代表点每个集群允许治疗调整,对于非的几何形状和减少有助于减少离群值的影响。随机抽样和分区和实验结果证实,集群由治疗的质量要好得多比现有算法。此外,作者表达了分区和随机抽样使治疗不仅比现有算法还对大型数据库规模不牺牲质量的集群。 |
李·m·库恩,同时,出版社[7]讨论了基于聚类的方法,它将流划分为块和集群每个块中使用k-mean固定数量的集群。在本研究作者把每个集群的候选异常值和平均值为下一个固定数量的数据流块,确保检测候选异常值是真正的离群值。的平均值用于集群流块和当前块的平均值被考虑,用于选择更好的outlierness数据流对象。不少实验对不同类型的数据集确认技术可以找到更好的异常值较低的计算成本比其他现有的基于距离的孤立点检测方法在数据流。 |
卡洛斯德出版社[5]讨论了k - means算法的三种变体集群二进制数据流。变异是在线k - Means,可伸缩的手段,在线k - Means和增量k - Means提出引入一个变体,在更短的时间内找到高质量的解决方案。所有变量都与真实和合成数据集。提出了增量K意味着变体已经超过了很快可伸缩的成色的K - Means并找到解决方案。k - means变异比较对速度和结果的质量。提出的算法可以用来检查事务。在本研究作者进一步讨论的加速度增量Kmeans算法是不可能的,除非近似,使用随机化或树苗。 |
沙玛。M,出版社[11]交谈关于k的算法对数据流的聚类和异常值检测。这项技术已被用于孤立点检测是基于距离和时间,它们到集群中。作者考虑的选择k中心和可变大小的桶的帮助下空间聚类过程中可以有效地利用。大多数传统聚类算法是非常困难的问题,减少他们的质量更好的效率。在本研究作者表示增加一个小的时候,由于这导致集群可以有效地集群数据没有多少损失数据的质量。 |
Thankran。Y,出版社[13]提出流数据的无监督异常检测方法。这种方法是基于聚类,聚类是一种无监督数据挖掘任务,它不需要带安全标签的数据。该方法在这个分区和基于密度聚类方法结合利用密度和基于距离的孤立点检测的。它分配权重属性取决于各自的相关性挖掘任务和权重的自适应。加权属性有助于减少噪声属性的影响。该方法是增量和自适应的概念进化。 |
方法 |
聚类和异常检测是数据流的重要任务之一。异常检测是基于聚类的方法,它提供了新的积极的结果。本研究工作的主要目的是进行数据流的聚类过程和检测数据流的异常值。在本研究工作中,两个与k - means聚类算法即治愈和治疗CLARANS用于聚类数据项和发现数据流的异常值。系统架构的研究工作如下: |
答:数据集 |
为了比较检测异常值的数据流聚类数据集来自UCI机器学习库。数据集即乳腺癌与699年威斯康辛州的数据集情况下,属性和皮马印第安人数据集包含768 8实例和属性。这两个生物数据集有数值属性已被用于这项研究工作。数据流是一个无限序列的数据,因为它是不可能存储完整的数据流,为此我们把数据分成相同大小的块,每个块的大小是由用户指定的取决于数据的性质,最后我们将数据分成相同大小的块在不同的窗口。 |
b .集群 |
聚类算法用于对象分组成重要的子类和集群数据流挖掘数据流的子区域。数据流的聚类算法应该是自适应的更新集群可在任何时间,考虑到新数据项就到来。有不同类型的聚类算法适合不同类型的应用程序所追逐的层次聚类算法,分区聚类算法、基于密度的聚类算法和基于网格的聚类算法。集群的定义是一个无监督的问题。没有预定义的类标签存在的数据点。使用聚类分析的应用,如数据分析、图像处理、股票市场分析等。 |
c .异常值检测 |
异常值检测有着广泛的应用,如保险、欺诈检测、入侵检测、信用卡等等。进一步复杂化的事实,在许多情况下,异常值必须被发现从大量的数据增长速度无限[8]。传统的孤立点检测算法不能有效应用到数据流从数据流可能是无限的和不断发展的。它必须被处理在一个严格的时间约束和有限的空间,因此在数据流异常检测造成巨大挑战也跟着单扫描。[9]。异常值检测数据流应该非常快,最好在single-scan和更复杂的数据流,因为它是很难建立不同的数据分布在发展基础。现有算法把模型学习的唯一分布检测异常值和它还满足数据流的发展特点和可能过于保守的检测重要的异常值。因此,基于聚类的孤立点检测是一个最好的技术来管理这个问题。基于我们的研究我们使用集群孤立点检测与治疗和CLARANS Kmeans和治疗。 |
d .治愈集群 |
治愈(集群使用代表)是一种有效的数据的数据流聚类算法更健壮的异常值和识别集群对于形状和宽差异大小。治疗是一个分层的方法将数据分解成一个树状结构。避免不均匀的问题大小或形状的集群,它采用分层聚类算法,采用基于质心之间的中间地带,所有点极端。在每个迭代中,它有一个常数c的分散点集群的选择,减少对集群的重心由α一小部分。缩小后的散点作为集群的代表。与最亲密的一对代表集群是集群融合在每一步的治疗的层次聚类算法。这允许治疗正确识别集群和异常值会降低敏感[15]。治疗算法之后, |
|
算法的运行时间是O (n2 O (log n))和空间复杂度是O (n)。该算法不能直接应用于大型数据库。所以因为这个原因通常是用来处理数据集和随机抽样的随机样本符合主内存由于随机抽样精度和能力之间的权衡。基本思想是将样本空间分区到分区。在第一次通过集群分区直到最终数量的集群减少np / q几个常数q≥1。在n / q运行第二个集群通过部分集群的所有分区。第二通过存储代表点合并。合并前需要以前的代表点集群计算集群的新代表点合并。利用分区的输入是用来减少执行时间。点k集群,优秀的数据点应该分配给集群。k代表点为每个集群被选中分数以选择数据点分配给集群包含代表点接近它。 |
e . k - means聚类 |
k - means聚类是一个支柱的方法检测离群值。k - means聚类算法需要迭代优化的聚类质心逐步实现更好的聚类结果。这个优化过程包括多个数据扫描,不可行的数据流。K-mean描述给定数据集n的对象分为k集群k需要数量的集群。k-mean重心为每个集群定义的所有数据对象放置在集群有重心最近的所有数据对象。在处理所有数据对象然后k-mean质心计算一遍又一遍。为每个重心改变他们的位置和它需要指定提前k数量的集群。这一过程持续进行直到没有重心移动一步一步。k - means算法之后 |
|
f . CLARANS集群 |
CLARANS[15]聚类算法只是用于随机搜索和CLARANS略作为聚类大型应用程序基于随机搜索。Ng和汉族1994年称为CLARANS提出了一种新的算法。它使用随机搜索生成的邻居从任意节点和随机检查maxneighbours,以往如果邻居代表更好的分区过程继续发现新节点,否则局部最小值和算法重新启动直到找到num局部最小值(num本地= 2推荐)的价值最好的节点返回生成的分区。CLARANS采取随机动态选择数据的每一步的过程。因此相同的样本集在聚类过程中没有使用。因此更好的随机源。CLARANS比克拉拉准确检测离群值,它是更少的影响通过增加在尺寸上和画出样本每一步的邻居搜索这封闭的好处是本地化的区域。CLARANS算法之后, |
|
实验结果 |
答:聚类精度 |
聚类精度计算,通过使用两个指标精度和召回。与k - means聚类算法治愈和治疗和CLARANS皮马印第安人糖尿病和Wiscosin-breast癌症数据集。表我与表2显示聚类精度,精度和召回三windows和5。 |
从上面的图表,可以看出治愈和CLARANS与k - means聚类算法聚类算法执行比治愈皮马印第安人糖尿病数据集和乳腺癌Wiscosin窗口大小5和3。因此治愈和CLARANS聚类算法相比表现良好,因为它包含了聚类精度高和k - means治愈。 |
b .离群值精度 |
答:皮马印第安人糖尿病的检测率和误警率 |
孤立点检测的精度计算,为了找出数量的异常值与k - means聚类算法检测到的治愈和治疗和CLARANS皮马印第安人糖尿病数据集。表3和表4显示了孤立点检测率和误警率的数量在三个窗户和五个窗户。 |
从上面的图表,可以看出治愈和CLARANS算法和k - means聚类算法执行比治愈皮马印第安人糖尿病检测异常值的数据集窗口大小5和3。因此治愈和CLARANS聚类算法表现良好,因为它包含异常值检测精度高和k - means相比治愈。 |
b .乳腺癌的检测率和误警率(WISCOSIN) |
孤立点检测的精度计算,为了找出数量的异常值与k - means聚类算法检测到的治愈和治疗乳腺癌和CLARANS -Wiscosin数据集。第六表V &表显示的数量异常值检测率和误警率在三个窗户和五个窗户。 |
从上面的图表,可以看出治愈和CLARANS算法和k - means聚类算法执行比治愈检测异常值的生物数据集皮马印第安人糖尿病和乳腺癌(Wiscosin)三个窗口以及五个窗户。因此治愈和CLARANS聚类算法表现良好,因为它包含异常值检测精度高相比与k - means桦木。 |
结论 |
数据流是动态有序、快速变化的、大规模的、无限的和无限序列的数据对象。数据流聚类技术是高度有用的处理这些数据和异常检测是数据流的具有挑战性的领域之一。通过使用数据流分层聚类与划分聚类有助于有效地检测异常值。在本文中,我们分析了治愈的性能与k - means和治疗CLARANS聚类算法来检测异常值。为了找到最好的聚类算法对孤立点检测的几个性能的措施。从实验结果可以看出孤立点检测的精度更有效治疗和CLARANS集群比较治疗与k - means聚类。 |
表乍一看 |
|
|
|
数据乍一看 |
|
|
引用 |
- c . Aggarwal Ed,“数据流模型和算法”,施普林格,2007年。
- 注:c . Aggarwal j .汉j . Wang,“预计高维数据流聚类的框架”,30 thvldb研讨会论文集,多伦多,加拿大,852 - 863年,2004页。
- Bakar。Z, A . Mohemad R .Ahmad, A . &Deris M M,“异常检测技术的比较研究数据挖掘”,IEEE Conf.Cybernetics和智能系统,曼谷,泰国,1 - 6,2006页。
- D。芭芭拉,“要求集群数据流”,ACM SIGKDD, Volume3问题2,页汽车出行,2002年1月。
- 卡洛斯德“k - means聚类的二进制数据流”,ACM国际会议管理学报》的数据,sigmod1998。
- Chandrika。投资者Ananda Kumar博士J,“高速数据流的动态聚类”,IJCSI计算机ScienceIssues的国际期刊,9卷,问题2,没有1,2012年3月。
- 艾莱西m . KunLi,这个w . XinjieLv HonganWang,“模糊系统和知识发现”,第五国际会议第五卷,andVol。3,汽车2002页。
- d·霍金斯,”识别outliers-Monographs统计和应用概率”,第一期,页- 188,施普林格出版于1980年。
- Irad Ben-Gal、异常值检测,数据挖掘和知识发现手册:一个完整的指南从业者和研究者,Kluwer学术出版社,2005。
- l . O '卡拉汉,“聚类数据流理论与实践”,IEEE知识和数据工程,15卷,没有。3,2003。
- MadjidKhalilian, Norwati穆斯塔法,“数据流clustering-Challenges和问题”,《国际多会议ofEngineers和计算机科学家,香港,我卷,页。2010年3月17 - 19日。
- 沙玛,m . Toshniwal D,“Pre-clustering异常检测算法和聚类,使用可变大小的桶”,发表在RecentAdvances信息技术(RAIT), 1日国际会议于2012年3月15 - 17日。
- SudiptoGuha, Rajeev Rastogi Kyuseok垫片,“治疗:一个有效的聚类算法对大型数据库”,ACM图书馆,1999年。
- 达卡兰。Y, Toshniwal .D,”流数据使用加权聚类的无监督异常检测”,智能系统设计及应用(ISDA), 2012年。
- t . SoniMadhulatha“流数据算法的概述”,先进的计算:一个国际期刊(ACIJ),第二部,6号,November2011。
- 黄Yi-honglu,燕“矿业中使用集群”,第四届国际会议程序机器学习andCybernetics,卷。4,21页,2005页。
|