所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

无人监督的基于距离的孤立点检测使用最近邻居算法在分布式的方法:调查

Jayshree S.Gosavi1,Vinod S.Wadne2
  1. PG学生,计算机工程系、ico Savitribai Phule浦那大学Wagholi,印度浦那
  2. 计算机工程系助理教授,ico, Savitribai Phule浦那大学Wagholi,印度浦那
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

异常检测是发现偏远的过程模式从一个给定的数据集。孤立点检测在不同的知识领域成为重要课题。数据大小是每一年翻一番需要尽可能早地检测异常值在大型数据集。在高维数据异常值检测由于维度的诅咒带来了各种挑战。通过检查再次逆转最近的邻居的概念在无人监督的孤立点检测的背景下,高维度可以有不同的影响。在高维度观察到reverse-neighbor计数点的分布变得扭曲。提出工作旨在开发和比较的无监督异常检测方法,提出一种改进它们的方法。这个提议在细节的开发和分析异常值检测算法,如局部离群因子(LOF),当地的基于距离的离群值的因素(LDOF),影响了异常值和,然后综合这些方法的概念,实现一个新的方法以分布式方式可以改善的结果之前提到的参考速度、复杂性和准确性。

关键字

最近的邻居,异常值检测、高维数据、反向无监督异常值检测方法。

介绍

检测数据中的异常值定义为发现数据中的模式,不符合正常行为或数据不符合预期的行为,这样的数据称为离群值,异常,异常。异常和异常值有相似的意义。分析师有强烈兴趣异常值,因为它们可能代表重要的和可操作的信息在不同的领域,如入侵检测、欺诈检测和医疗诊断。局外人是一个观测数据实例中不同于其他数据集。有很多原因导致异常值出现像数据质量差,故障的设备,信用卡欺诈。
标签与数据实例相关联的数据显示该实例是否属于正常的数据或异常。基于标签的可用性数据实例,异常检测技术操作的三个模式1)监督异常检测、技术培训监督模式考虑到标签实例的可用性对正常和异常类的训练数据集。2)Semi-supervised异常检测、技术培训监督模式考虑到标签实例的可用性为正常,不需要标签异常类。3)无监督异常检测技术,在无监督模式不需要训练数据。
有异常值检测的各种方法基于最近的邻居,而考虑到异常值出现离他们最近的邻居。这种方法基于距离或相似度量搜索邻居,与欧氏距离。许多neighbor-based方法包括定义的异常分数点距离kthnearest邻国(事例方法),一些方法,确定一个点的分数根据其相对密度,自k最近邻的距离对于一个给定的数据点可以被视为一个逆密度的估计。

二世。相关工作

作者[2]分配一个异常分数称为局部离群因子(LOF)给定的数据实例。对于任何给定的数据实例,LOF分数等于平均局部密度比k最近的邻居的实例和本地数据实例本身的密度。找到当地的密度数据实例,作者首先找到的半径最小的原来集中在数据实例,包含k最近的邻国。然后计算局部密度除以k这个原来的体积。为一个正常的实例在一个密集的地区,当地的密度将类似于邻国,如果当地密度将低于其最近的邻居,那么它是一个异常实例,。因此,异常实例将得到更高的LOF得分。在[3]中作者提出了孤立点检测的方法,叫当地的基于距离的离群值的因素(LDOF),用于检测离群值的分散数据集。在这种测量有多少对象偏离它们的分散。采用相对距离从一个对象到邻国。对象的违反程度高,主要对象是一个局外人。 In [4] proposed on a symmetric neighborhood relationship measure considers both neighbors and reverse neighbors of an object when estimating its density distribution .To avoid problem, when outliers are in the location where the density distributions in the neighborhood are significantly different.
在[5]作者提出一个数据流异常检测算法SODRNN基于反向最近邻。处理滑动窗口模型,检测异常异常查询执行在当前窗口。提高效率的更新插入或删除只在当前窗口的一个扫描。
在[6]提出一种离群值排名基于对象的偏差在一组相关子空间预测。它排除了无关紧要的预测显示没有明显的异常值和剩余的区别对象,找到对象偏离在多个相关的子空间,解决检测异常值的一般挑战隐藏在数据的子空间。在[7]作者提出一个统一的异常分数由各种异常值模型和翻译提供任意“异常因素”的值可以看作区间[0,1]值的概率描述数据对象的局外人。在[8]parameter-free异常值检测算法提出一种新的方法来计算命令距离差异异常因素。制定一个新的异常分数为每个实例通过考虑点距离的差异。然后,使用这个值来计算一个异类得分。

三世。现有的系统

答:局部离群因子(LOF:

LOF,比较实例的局部密度和密度的小区实例,然后将异常分数分配给数据实例。任何数据实例是正常的局外人,LOF分数等于平均比当地的实例和k最近邻密度的密度数据实例本身。找到当地的密度数据实例,找到小超球体的半径为中心的数据实例。实例计算的局部密度除以k,我。e k最近邻和超球体的体积。在这个学位分配给每个对象被局外人称为局部离群值的因素。取决于程度决定了对象是孤立的对周围的邻居。实例躺在密集的地区是正常的情况下,如果当地的密度是类似于他们的邻居,实例是离群值如果当地密度低于其最近的邻居。LOF与头n个更可靠的方式。因此它被称为头n个LOF意味着实例与最高LOF值考虑离群值。

b .当地基于距离的离群值因子(LDOF):

当地基于距离的离群因子测量对象outlierness在分散数据集。在这个邻国使用对象的相对位置来确定对象的偏差度附近的实例。在这种分散社区被认为是。更高程度上的偏差数据实例,更有可能数据实例作为一个局外人。在这个算法计算当地的基于距离的离群值系数为每一个对象,然后排序,排名n的对象有LDOF最高价值。LDOF值最高的前n对象考虑作为一个局外人。

c .影响Outlierness (INFLO):

该算法考虑了异常值情况下的位置附近密度分布明显不同,例如,在对象的情况下接近密集的集群从稀疏集群,这可能给错误的结果。该算法考虑了对称的邻里关系。在这个评估时考虑影响空间和密度分布也认为这两个邻国和反向对象的邻居.Assign每个对象在数据库影响outlierness学位。inflo越高意味着对象是个例外。

d .缺点:

1。阈值是用来区分异常值与正常对象和低outlierness阈值将导致高的孤立点检测的假阴性率。
2。问题数据实例位于两个集群之间时,对象之间的interdistance k最近的邻居增加当分母值增加会导致假阳性率高。
3所示。需要改善计算孤立点检测的速度。
4所示。需要改善基于密度的离群值检测的效率。

第四,提出了系统

提出系统的描述:

大数据集的集合的一个输入将提供给该系统,从存储库标准数据集收集数据,数据预处理前将应用系统的数据传递给下一个阶段。进一步,这预处理输入是通过分区模块,这些数据集的分区在许多节点从一个主管节点和节点生成分区统计数据和统计数据可视化。之后,在异常检测模块,提出了分布式算法在预处理输入数据集识别离群值。这些结果将评估分布式方法提出算法的性能评估。
图像

1)数据采集和数据预处理:

在数据收集的初始输入数据系统将收集到的标准数据集门户即UCI数据集的存储库。提出了系统,标准数据集将用于这个系统包括植被类型、ip数据集。收集的数据集可以在原来的,因此未压缩的形式;转发之前应进行预处理等数据为未来的步骤。预处理大型数据集的内容,可以是数据挖掘技术如数据集成、数据转换、数据清洗、等将使用和清洗,需要将生成的数据。

2)数据分区:

在这个模块中,系统执行计划如前所述,预处理数据分为中央主管的客户数量节点即服务器根据所需的数据请求由客户的数量。这个分区的数据将由个人客户识别异常值处理基于应用算法策略。

3)异常值检测:

最初技术提出了识别异常值将被应用在分布式的客户和他们的结果发现异常值将被集成在服务器机器上的最后阶段计算离群值。为此,提出的异常检测策略资讯算法ABOD和INFLO方法。
上面的分布式方法提出了基于最近邻方法基于异常检测技术。这种技术假设是正常数据实例发生在密集的社区,而离群值发生远离他们最近的邻居。在这个提议使用最近邻的概念基于异常检测技术:(1)使用距离k最近的邻国的数据实例计算离群值分数。(2)计算每个数据实例来计算其相对密度的异常分数。
该算法考虑k-occurrences数据集定义为有限集的n个点和对于一个给定的点在一个数据集,表示数量的k-occurrences基于相似度或距离测量Nk (x)的数量乘以x出现在所有其他点和k最近邻点那些经常发生中心和分antihub很少发生。例如,使用反向最近的邻居发现查询对象的实例是最近的。在这第一次读到高维数据集的每个属性,然后使用基于角异常检测技术计算每个属性的距离使用数据集设置距离和与距离和分配每个实例的离群值的分数。基于离群值分数使用反向最近邻确定特定实例是个例外。

4)绩效评估和结果可视化:

在这个模块中,异常值检测到上述方法将被评估的基础上设置评价参数的性能评价。绩效评价还将提供详细信息实现系统性能指标,约束为未来的范围和方向。借助适当的可视化结果,系统执行将更容易理解和探究的评价者。

诉实验设置和评估

我们的测试进行了使用高维数据集,覆盖类型数据集从UCI机器学习库包含54 581012数量的属性和数量的实例。实验评价了两个核心CPU 2.53 GHz Intel和4 GB的RAM,拥有一个windows操作系统。Java实现的算法完全处理高维数据中的数据实例。

六。结论

这个提议资讯与无监督学习算法与ABOD INFLO方法使用分布式方法旨在实现和比较的无监督异常检测方法,提出一种提高他们的速度和准确性,减少假阳性错误率,降低假阴性率,提高效率与现有的基于密度的离群值检测和比较算法。未来实现机器学习等技术监督和semi-supervised方法。

引用

  1. 诉Chandola、A . Banerjee和诉Kumar“异常检测:一项调查,”ACM第一版Surv,第41卷。。3 p。2009。
  2. m . m . Breunig H.-P。Kriegel、r·t·Ng和j .桑德LOF:识别density-based局部离群值,“SIGMOD Rec, 29卷,没有。2、93 - 104年,2000页。
  3. 张k、m . Hutter和h·金,“一个新的本地基于距离的孤立点检测方法分散真实的数据,“在Proc 13日亚太之知识发现和数据挖掘(PAKDD), 813 - 822页。2009年。
  4. w·金,a . k . h .东j .汉和w·王,“排名离群值使用对称的邻里关系,”在Proc 10日亚太相依的进步知识发现和数据挖掘(PAKDD), 577 - 593年,2006页。
  5. c、l .西z从z中平,和l . Aiyong”数据流异常值基于反向delection算法k最近的邻居,“在Proc第三Int研讨会上计算智能和设计(ISCID), 236 - 239年,2010页。
  6. 阿米尔,马蒂亚斯·希弗,托马斯•Seidll”相关子空间投影的统计选择离群值排名”,IEEE, ICDE会议,页。434 - 445年,2011年。
  7. 汉斯Kriegel同行Kr¨奥格埃里希·舒伯特阿瑟·Zimek“解释和统一的异常分数”,暹罗国际会议数据挖掘(SDM)、台面,页24里面。阿兹,2011年。
  8. Nattorn Buthong, Arthorn Luangsodsai, Krung Sinapiromsaran”,孤立点检测的分数基于命令距离不同,“计算机科学与工程国际会议(ICSEC),页。157 - 162年,2013年。
  9. H.-P。Kriegel, m·舒伯特和a . Zimek Angle-based在高维数据异常值检测,“在Proc 14 ACM SIGKDD Int相依在知识发现和数据挖掘(KDD), 444 - 452年,2008页。