所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

的调查和罕见的加权频繁项集挖掘的方法

J.Jaya1和S.V.Hemalatha2
  1. PG学者,CSE称,Kalaignar卡鲁纳尼迪理工学院,印度哥印拜陀
  2. 助理教授,CSE的部门,Kalaignar卡鲁纳尼迪理工学院,印度哥印拜陀
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

项集挖掘是数据挖掘方法广泛用于学习重要的数据之间的相关性。最初的项集挖掘了发现频繁项集。加权频繁项目集描述数据项可能通过频繁的相关性数据的重量不同。但是,在某些情况下,例如某些功能需要成本最小化来确定罕见的数据相关性。确定这些类型的数据挑战和有趣的研究比挖掘频繁项中的数据。本文调查频繁项目集的各种方法和不频繁项目集挖掘的数据。这项工作相互区分各种方法在数据挖掘。最后,比较每种方法的提出提供频繁的意义和局限性和罕见的项集挖掘的数据。

关键字

聚类、关联规则、频繁项目集采矿、频繁项集挖掘。

介绍

数据是任何事实、数字或文本,可以由计算机处理。模式、协会或这些数据之间的关系可以提供信息。信息可以转化为知识的历史模式和未来趋势。
数据挖掘就是发现的过程相关性或模式在很多领域在大型关系数据库中。有趣的是提取从大型数据库中的数据信息或模式。数据挖掘是发现的过程数据从不同的观点和总结成有价值的信息。此信息可以用于提高数据信息的成本和利润。数据挖掘与处理大量的考虑在信息化建设和社会最近,由于广泛的可预防性的海量数据和未来需要计算这些数据到实用信息和熟人。数据挖掘发现的应用主要在市场购物篮分析,风险分析,欺诈检测,DNA数据分析、网络挖掘…等。关联规则挖掘是数据挖掘研究课题,有许多应用程序。它描绘了隐式数据属性之间的关系。提取有趣的相关性、频繁模式集之间的关联或休闲结构项目事务数据库或其他数据存储库是关联规则挖掘的主要目的。关联规则挖掘中提取有趣的相关性和大量的交易关系。
这个过程分为两个阶段。第一阶段是项目集挖掘。第二阶段是规则建设。项集挖掘是专注于发现频繁项集,即。,patterns whose observed frequency of occurrence in the source data (the support) is above a given threshold. Itemset below the threshold value is referred as Infrequent itemset. Frequent itemsets mining is a central part of data mining and distinctions of association examination, namely association-rule mining and sequential-pattern mining respectively. From large amount of data, frequent itemset are constructed by concerning some rules or association rule mining algorithms to calculate all the frequent itemsets. In many association investigation methods, frequent itemset extraction is considered as a primary step. An itemset is named as frequent if it is available in a large-enough part of the dataset. This frequent occurrence of item is represented by means of the count of support. Consequently, it requires complex techniques for hiding or restructuring users’ private information through a data construction process. Furthermore, this technique does not yield the accuracy of mining results. Discovering such frequent pattern is termed as a significant position in mining relations, correlations, and several other relationships among data. In addition, it is used in data clustering, data classification and various other data mining techniques respectively.
然而,大大减少考虑已经发现频繁项集的挖掘,即使它取得主要使用挖掘频繁项集的负关联规则,统计信息披露风险测量而异常模式在匿名的示例数据可以直接统计信息披露。频繁项集是适应财政或税务欺诈检测而不寻常的模式数据可能意味着不寻常的行为与欺诈行为,然后应用生物信息学领域的不寻常的模式在微阵列数据可能意味着遗传病。模式很少建立在数据库经常测量和消除使用支持评估无关。这样的模式命名为罕见的模式。挖掘频繁模式是一项具有挑战性的尝试,因为有大量的这样的模式可以从著名的数据集。一般来说,频繁模式挖掘的主要问题是确定适当的罕见的模式和有效地发现这种模式在大型数据集。
以下工作描述各种方法的文献分别用于挖掘频繁和频繁项集

相关工作

技术用于频繁项集挖掘

均匀分布的物品
在[1]RAgarwal介绍广泛使用的频繁项集挖掘的数据挖掘技术。这里的规则框架基于据说是频繁项集挖掘。这些itemset满足最小支持和信心是作为频繁和用于框架关联规则。大多数的关联规则挖掘方法假设所有项目在一个数据集有一个均匀分布的支持。这是项目的主要问题在一个事务中是平等。
项目的意义
在[2]。王引入了权重的概念被分配在每个事务项反映了强度或项目在事务的重要性。介绍了权重的主要问题是,只有在规则生成步骤不是用于挖掘目的。
加权关联规则挖掘
在[3]冯道出版社提出了加权关联规则挖掘频繁项集的挖掘。在这工作的限制特别避免了传统关联规则挖掘模型中不能治疗单位不同。方法使用重量可以合并在采矿过程来解决这个困难。挑战是解决在增强对使用重量,特别是向下封闭性的失效。为了适应在新环境中的权重,使用一组新的概念。这个加权向下关闭术语被用作替代的独特向下关闭属性。最后这种方法确认合适的原因并给出了高效的采矿方案的加权支持的新建筑。通过学习的模拟晶格建设、解决方案建议重量可以利用指导采矿专注那些重要的项集与高度的后果。事务是一种重量itemset的重量。这是一个价值的每个事务。 Usually the higher a transaction weight, the more it contributes to the mining result. However weights are to be priorly assigned which is difficult in real life cases.
数据整理框架
在[4]数据削减框架提出了挖掘频繁项集的概率框架下不确定数据。这种方法使用U-Apriori算法,这是一个定制的先验的算法的一部分,处理各种数据集。然后U-Apriori的计算问题是确定使用数据挖掘技术。然后LGS-Trimming法框架下和确认,通过广泛的实验,它达到很高的性能通过输入/输出成本和计算成本。U-Apriori相比,LGS-Trimming过程数据集与增加的百分比低概率项。
W-support机制
在阳光[5]客和FengshanBai小说在关联规则挖掘w-support机制的框架。最初,利用冲击模型和算法来获取交易从一个数据库记录的重量只是二进制属性。由小说源于这些权重的评估w-support提供描述项目的结果集。然而,方法有别于传统的考虑质量事务的支持。然后,w-confidence和关联规则w-support相似的描述中描述的信心和支持。那么Apriori-like算法提取关联规则而w-confidence和w-support是导致以上固定阈值。分析数据集通过两偶图表示为了自动化项目重量分配。
概率频繁项集挖掘
在[6]C.K.)崔地址关于重量的问题发生概率,但在大多数情况下他们都是不相关的。例如一个项目很有可能发生在一个事务中似乎是最重要的。在[7]托马斯Bernecker出版社提出了概率频繁项目集开采矿业不确定的事务数据库。这个概率方法带来了新的基于频繁项集的概率机制可能世界语义学。在这个概率情况下,itemset据说如果频繁项目集的概率发生在至少度交易高于给定阈值。据说很大这是第一个方法处理下这个问题可能世界语义学。除了概率机制,提出了一个框架,它有能力解决概率频繁项集挖掘(PFIM)精通地问题。
频繁模式树(FP-tree)结构
在[8]加威汉出版社提出了小说频繁模式树(FP-tree)结构,这是一个扩大前缀树结构存储压缩,关键信息频繁模式,并扩大有效FP-treebased采矿系统,FP-growth,矿业绝对的频繁模式集模式片段的增长。矿业的有效性是实现三种方法:1)一个巨大的数据库压缩成一个很大程度上减少了。2)提出FP-tree-based矿业批准模式片段生长过程,消除昂贵的一代大量的候选集。3)最后而基于分区的方法称为“分而治之”系统用于采矿工作划分为一系列的小任务矿业拘留条件数据库中的模式,适当减少搜索空间的地方

采矿技术用于罕见的项目

正面和负面的关联规则

在X [9]。wuEfficient正负关联规则的挖掘。他们专注于识别频繁项集之间的关联。他们设计了一种新的有效方法正负关联规则挖掘在数据库中。这种方法是新颖和不同于现有的研究成果对协会的分析。一些频繁项集的兴趣这个方法而不是现有的研究成果。他们也设计约束减少搜索空间,并使用了条件概率的增加程度相对于先验概率估计正负关联规则的信心。

最小的频繁项集挖掘

在[10]大卫MINIT出版社提出了一种新的算法,寻找最小τ罕见或最小τ并发项目集。首先,项目的排名是由评估每个项目的需要,然后生成一个记录的物品在上升的支持。最小τ不频繁项集是由使用每一项排名顺序,反复调用MINIT维护组的数据集对物品只使用比目前的项目,这些项目与优越的排名后,检查每一位候选人的最小罕见的物品(MII)对原始数据集进行。系统只能用于判断superior-ranking项目迭代是保持“活性”向量代表哪些物品保持在每个迭代的可行性
罕见的关联规则生成
在[11]Laszlo出版社提出代罕见的关联规则挖掘频繁项集。这项工作提出了一个方法来把罕见的关联规则,隐藏停留传统的频繁项集挖掘算法。与其他方法相比的方法发现强关联但很少本地数据中发现规律。这些规则是“核磁共振规则”.Apriori计算最小的罕见的项集的支持(核磁共振成像),即罕见的频繁项集,这样所有适当的子集。而不是修剪核磁共振成像,谁的罪就留下了。此外,它是核磁共振成像显示,形成一个发电机组的罕见的项集,即所有罕见的项集可以恢复从核磁共振成像的设置有两个优点。最初,他们是高度信息的情况下,他们有一个前提,是一个制片人itemset的同时加入了合成给为一个封闭的项目集的方法。其次,这些规则的数量很小,这是著规则组成的密集的插图主要自信的协会,可以从最罕见的项集。
Pattern-Growth范式和残余树
在[12]阿施施Gupta e。艾尔pattern-growth范式提出发现频繁项集最小。他们建议一种新的算法基于pattern-growth范式找到最小频繁项集。它没有子集也是罕见的。这项工作的奖学金最小使用新颖的算法挖掘频繁项集最小。然后剩余的树的概念已经被使用的一种变体结合FP-Tree结构被称为逆FP-Tree。为了挖掘频繁项集最小,优化先验的算法执行。最后提出了树用于频繁项集的挖掘

优化基于规则的算法

在[13]NikkySuryawanshiRai出版社提出了一种新的关联规则挖掘算法优化。这个方法决定了危机的负面规则生成和优化规则生成的方法。这个方法使用一个多层次的多个数据表的支持0和1的二进制值。分裂过程最小化数据库的检查时间。提出的方法在遗传算法和传销的组合工作。MIPNAR_GA已经提出的算法挖掘有趣的正面和负面的规则很少和频繁模式集。算法是精通三个阶段:首先,它提取频繁和频繁模式集,通过融合先验的方法。其次积极和消极规则生成。最后修剪冗余规则已经申请兴趣测量。

Confabulation-Inspired关联规则挖掘

在[14]AzadehSoltani&Akbarzadeh confabulation-inspired介绍关联规则挖掘(CARM)算法挖掘频繁和罕见的项集。CARM是出于思想在人类大脑的方法,特别是虚构的理论挖掘关联规则。提出了算法包含两个阶段的知识素养和规则提取。知识素养包含两个模块,而轴突协会之间的联系这两个模块是用来存档所有领域知识。然后执行第二阶段的规则提取来自这些通信链接的体重年龄。

结论

目前工作调查挖掘频繁的各种方法和罕见的项集的数据。调查工作提出不同的观点在不同的类型的有趣的频繁和罕见的模式。正面和负面的关联模式的相关概念及其关联规则挖掘。当前调查使得频繁和罕见的数篇论文综述相关模式和除了罕见的项集和也提供了不同的算法提出了知识挖掘频繁模式。挖掘频繁项集的主要优势是推动利润很少来自数据集的事务。第一个工作是发现频繁项目集挖掘,然后确定加权频繁项集。每种方法的优缺点对比表有效区分每个方法中描述的功能。根据所有现有的算法的分析,频繁项集挖掘频繁模式增长算法使用非常少的计算时间和效率的性能已得到改进时,大型数据库已经占据。

表乍一看

表的图标
表1

引用