所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

在关联规则挖掘方法规则剪枝删除冗余

Ashwini Batbarai1,Devishree Naidu2
  1. 打开学生,计算机科学与工程系,Ramdeobaba工程和管理学院,印度那格浦尔。
  2. 计算机科学与工程系助理教授,Ramdeobaba工程和管理学院,印度那格浦尔
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据挖掘中关联规则挖掘是一个重要组成部分。它是用于预测或决策。数量的方法或算法生成关联规则的存在。这些方法生成大量关联规则。一些冗余的规则。提出了许多算法解决的客观障碍提出了关联规则的产生。在本文中,我们给出了基于闭频繁项集挖掘的方法去除冗余(FCI),并使用电梯的有趣的测量控制有趣的规则,形成基于完整性和密性属性冗余规则集的规则集。

关键字

关联规则挖掘,频繁闭项集,冗余规则,冗余规则。

介绍

关联规则是一种关联关系中属性的相关数据或事务数据。它给结果的形式规则之间的不同的项目度量的基础上支持和信心即分别联合和条件概率的前提和结论。
关联规则挖掘所需的两个重要的限制[1]的支持和信心。发现频繁模式,协会、相关性或因果结构的项目集或对象在事务数据库、关系数据库和其他信息存储库。
关联规则:前期→顺向(支持、信心)。
让我= {i1、i2……在}一组物品和D = {t1, t2,…, tn}的事务集tj⊆我是代表客户购买的商品的集合,然后关联规则是一个含义:X→Y X, Y⊆我和X∩Y =Ø;支持基于“增大化现实”技术(s) X→Y:概率事务包含X∪Y。信心的基于“增大化现实”技术(a) X→Y:条件概率,一个事务X还包含Y [11]。
有两个关联规则的定义。:
1日2的关联规则r是一个含义频繁项目集X, Y⊆表单的X→X∩Y = rØ和支持和信心的统治被定义为(X) =支持(Y)和信心(r) = (Y) /支持(X) [11]。
2号2的关联规则r是一个含义频繁项目集X, Y⊆表单的X→X∩Y≠Ø和支持和信心的规则r被定义为(X) =支持(Y)和信心(r) = (Y) /支持(X) [2]。我们正在考虑1定义的基于“增大化现实”技术的方法。
例如:I = {1 2 3 4 5}
图像
图像
这样的规则形成itemset使用措施支持和信心。
有两种类型的关联规则1确切关联规则在这个规则有信心等于100%那么叫做确切的规则。二是近似关联规则,有不到100%的信心。我们考虑的方法。[3]
有两个阶段生成关联规则1一个是提取频繁项目集和2从频繁项集产生关联规则。有两种类型的项集生成。一是挖掘频繁项集生成频繁项目集使用先验的算法(候选集生成),FP-Growth算法(没有候选集生成)。二是闭合频繁项集生成使用魅力使单机,等待算法,算法TOP-K (TFP),衣柜的算法。
生成关联规则有不同的算法和推测的一样,先天(TID),但这些算法存在一些缺点像多个数据库扫描。这种传统关联规则挖掘算法在生成关联规则提出了一些障碍,这些障碍是复杂的数据,挖掘所需的时间更重要的是,需要存储空间更规则,成本也更需要挖掘规则,获得非有趣的规则。数量的算法已经提出了解决障碍存在于一代的关联规则[1][2][3][4]。
使用频繁项目集生成规则提供了大量的规则和密集数据集使用频繁项目集生成的规则是不可能的,从封闭的频繁项目集生成的规则是可能的。形成关联规则频率较低意味着最低支持了大量的规则和增加频率即最大支持水平给出了规则,但是有趣的规则修剪。
这些方法产生大量的规则很多有相同含义;也有些规则只改变物品的祖先和后果没有比现有的一个不同的意义;和许多规则是有效的规则,但有相同的含义,这所有类型的规则叫做冗余规则。
冗余关联规则:定义:让X→X和Y '→Y '两个规则有信心cf和cf的分别。→Y表示冗余规则X '→Y '如果X属于X ';Y '属于Y, cf≤cf”[4]。这里给出五个类型的冗余:
规则1:如果X→YZ时冗余规则如XY→Z, XZ→Y, X→Y, X→Z是满足最低的支持和信心。这是因为支持和信心值X→YZ不到规则的支持和信心值XY→Z, XZ→Y, X→Y, X→Z。

2:检查规则的组合

据说规则在r冗余当且仅当一个规则或一组规则,年代在r, r的拥有相同的内在意义。例如,考虑一个规则集r有三个规则如牛奶→茶,糖→茶、糖和牛奶,→茶。如果我们知道前两个规则即牛奶→茶和糖→茶,然后第三个规则牛奶、糖→茶变得冗余,因为它是一个简单的结合前两个规则,因此它不传达任何额外的信息尤其是前两个规则。

3:交换前提和结果

交换的前期项目集的结果,项目集规则不会给我们任何额外的信息或知识。

4:冗余规则与固定结果规则[2]

让我们将这个定理应用到规则集R,有三个规则如{AB AB→X, Y和AB型→→XY}。考虑规则AB→XY s %支持和c %的信心。然后,规则如AB X和Y AB→→也将至少s和c % %支持的信心,因为X→XY和Y→XY。由于AB X和Y AB→→主导AB→XY支持和信心,因为这个原因AB→XY是多余的。
5:冗余规则与固定的规则[2]
让我们将这个定理应用到规则集R,有三个规则如{XY→Z, X和Y→→Z Z}。假设规则XY→Z s %支持和c %的信心。如果n(即先行词)的物品数量的规则数量如X和Y→→Z Z也满足s和c,规则XY→Z是冗余的,因为它没有传达任何额外信息如果规则X和Y→→Z Z。所有上述规则不能被视为在一个域处理冗余规则。
完整和严密的规则集是冗余规则集。规则集的所有规则和规则推断出其他规则称为完整的规则集。
规则集不包含冗余规则称为严格的规则集。

二世。相关工作

关联规则挖掘有不同的应用程序在市场数据分析等数据挖掘,购买历史、web日志。这种类型的应用程序有大量数据,如果我们使用传统的算法挖掘关联规则给大量的关联规则。从这些数量的规则很多规则含义相同所以需要减少拥有相同的挖掘的规则。不同的方法去除冗余规则。所有形式的方法给出了规则含义或功能依赖形式的规则是由使用阿姆斯特朗axiom方案即自反性(X→Y, Y⊆X)增加(如果X→X和Y '→Y ' XX '→YY,并列表示联盟)和传递性(如果X→Y Z X和Y→→Z)。
对于部分规则,阿姆斯特朗计划不再是有效的。自反性,但影响信心的传递性需要不同形式的规则:如果规则→B(或→AB,当量)和规则B→C都持有信心至少α(α是最小阈值水平),我们仍然一无所知的信心→C如果阈值小于最小的信心,通过使用动词的规则,我们把它当作有趣或重要的规则影响规则的准确性。所以我们不能使用动词的规则也不自反性保持这里[6]。
巴斯蒂德等。[1]给出了使用语义提取关联规则的算法,基于伽罗瓦连接关闭,一般依据精确的近似关联规则关联规则和翔实的依据。它构造使用频繁闭项集和发电机他们使用密切闭频繁项集挖掘算法及其发电机。它生成规则有最小的祖先和最大的。它给用户组规则覆盖所有数据集的属性即包含前期(resp联盟的规则。顺向)等于前期(职责的结合。顺向)关联规则有效的上下文。
Ashrafi等[2]提出的方法不仅去除冗余规则生成频繁项目集也删除冗余规则产生的频繁项目集关闭。拟议的方法不是基于任何偏见的假设。验证所有的规则有一个或多个项目的后果。因此,它有能力消除冗余规则包含单个或多个项目的后果。
大卫·罗等[3]提出的方法几个规则集基于各种类型的构成模式集即发电机,projected-database发电机,封闭的模式和projected-database关闭模式。这组评估基于这两个标准的完整性和密性和用作复合过滤器,更换一套完整的规则与非冗余的子集规则不影响过滤的准确性。
扎基等[4]生成冗余关联规则的框架。他们正在使用频繁闭项集挖掘算法和使用魅力生成规则;然后使用动词的减少冗余规则。例如{TW→A、TW→AC CTW→一个}在这个集合中所有规则一样有信心1然后把规则TW→一样有趣的规则和删除其他冗余规则,因为它只有在前提和结论中添加项目项。{→W,→CW、交流→W}在这个集合中所有规则有相同的信心因此将→W和删除其他作为冗余规则,但规则→W特征不完全规则的知识交流→W在这个我们删除有趣的规则,所以我们没有得到准确的规则集。。
菲利普Fournier-Viger等[5]这使TNR算法去除冗余。实时选择规则的参数来生成所需的数量通常是困难和耗时的,产生大量的冗余的结果。这些问题是解决使用TNR算法,但代价高昂。
冗余可以被有趣的措施。它有力地衡量一个属性意味着其它基于可用的数据。存在许多客观措施像电梯一样,大会可以使用获得有趣的规则取决于应用程序[6],[7],[8]。

三世。方法

作为传统方法生成大型无冗余的规则影响决策问题要解决这个问题在本文中,我们提供的方法基于频繁闭项集挖掘然后生成规则集,然后删除冗余用有趣的测量,基于完整性和密性合成规则集

工作流程:

我:通过使用IBM数据生成器生成合成数据集。零售数据集和蘑菇。
生成频繁闭项集通过魅力算法与最小支持值[9]。比频繁项目集生成频繁闭项集所需的时间更少。还从频繁项目集生成规则需要更多的时间和给大量的规则,所以我们使用FCI方法是无效的。
第三:从闭频繁项集生成规则集。
四:这里我们发现发电机itemset然后关闭itemset的发电机封闭itemset前期和剩余项的结果。并生成规则。这里的规则以最小的前期和最大生成的结果
认为是一个频繁项集P生成器在DB如果存在没有适当的子itemset的DB P拥有相同的支持
仍为消除冗余冗余存在使用动词的规则。
动词的规则:X→Y s和c % %支持的信心,Y→Z s和c % %支持的信心,那么X→Z s %支持和c %的信心。
使用电梯作为另一个有趣的措施消除冗余和有趣的规则
电梯(X→Y) =配置(X→Y) /增刊(Y) = P (X, Y) / (P (X) P (Y))。
提升措施多少倍比预期的X和Y发生一起统计独立。电梯不是下关闭,不遭受罕见的项目问题。也容易受到噪声在小数据库。
如果一些规则的电梯1,它意味着前期的发生概率和随之而来的是彼此独立的。当两个事件是相互独立的,没有规则可以涉及这两个事件。
如果电梯是正的,就像我们知道的程度这两个事件是相互依赖,并使这些规则可能有用的预测结果在未来的数据集。
如果规则生成的从单一封闭itemset拥有同样的支持和信心;在这种冗余,需要从整个规则集得到有趣的规则。电梯是有趣的措施使有趣的规则从所有这些规则有同样的支持和信心。
Eg.36 79 94 = = > 90 #一口:4744 #配置:1 #提升:1
36 79 90 = = > 94 #一口:4744 #配置:1 #电梯:1.02434
在这第二个规则是有趣的规则首先有需要删除的规则,把第二条规则是最有趣的规则。
例如88 94 = = > 36 90 #一口:4640 #配置:1 #电梯:1.02634
36 88 = = > 90 94 #一口:4640 #配置:1 #电梯:1.02434
88 90 = = > 36 94 #一口:4640 #配置:1 #电梯:1.02734
88 = = > 36 90 94 #一口:4640 #配置:1 #电梯:1.02734
第三条规则和有趣的规则和其他需要删除。
以这种方式提升了有趣的规则。电梯也给出了有趣的规则近似规则集。
V:规则设置为冗余规则库完整性和密性。
图像
图像
图像
研究结果表明[9]。在2日fig.产生频繁闭项集所需的时间少于其他算法。在3日图我们越来越没有的频繁闭项集支持阈值降低。这个结果显示在不同的数据集。我们可能只使用蘑菇和零售数据集。为不少于其他的频繁闭项集算法比其他我们有它给减少规则选择算法生成封闭的itemset的魅力。这只闭频繁项集生成通过使用这个规则产生式规则的时候给小于传统算法图4 [4]。在图4的规则生成随着信心的门槛降低了。仍然在许多没有规则减少我们使用我们的方法。

诉的结论

在本文中,我们研究的障碍来因冗余关联规则挖掘中。我们已经考虑到基于闭频繁项集挖掘的方法去除冗余和发电机。它给小的规则集比传统的方法,减少了冗余和从这个我们得到良好的预测

引用

  1. 巴斯蒂德Y。,Pasquier N., Taouil R., Stumme G., Lakhal, L., “Mining Minimal Non-Redundant Association Rules using Frequent Closed Itemsets”, 1st International Conference on Computational Logic, pp. 972 – 986,2000,.
  2. Mafruz Zaman Ashrafi大卫·Taniar凯特史密斯”琳inating冗余关联规则的新方法”15国际会议,用,萨拉戈萨,西班牙,页465 - 474 2004。
  3. 大卫•罗Siau-Cheng邱,Limsoon Wong“冗余序列规则理论和算法”学校的信息系统,新加坡管理大学,2008。
  4. 穆罕默德·j·扎基“生成冗余协会ruleKDD 00学报第六届ACM SIGKDD国际会议上知识发现和数据挖掘。ACM纽约,纽约,美国、页面34-43©2000。
  5. Philippe Fournier-Viger文森特美国曾“Top-K冗余关联规则挖掘”20国际研讨会,ISMIS 2012,澳门,中国,2012年12月4 - 7日。程序。
  6. 彭日成ning,一些Kumar Jaideep斯利瓦斯塔瓦“协会模式”选择正确的兴趣度度量KDD ' 02学报》第八届ACM SIGKDD知识发现和数据挖掘ACM国际会议上纽约,纽约,美国页面32-41©2002。
  7. p·d·McNicholas t·b·墨菲·m·奥雷根“规范电梯的一个关联规则”计算统计和数据分析,52岁的体积问题10,4712 - 4721页,2008年6月15日。
  8. 保罗j .代理和Alıpio m . Jorge2“比较规则措施预测关联规则”18日欧洲机器学习会议,华沙,波兰,pp 510 - 517程序2007。
  9. 穆罕默德·j·扎基Ching-Jui萧”的魅力:一个有效的封闭的项集挖掘算法”计算机科学系,伦斯勒理工学院,特洛伊纽约12180.2002。
  10. 乾坤赵,Sourav s Bhowmick”关联规则挖掘:一项调查“南洋理工大学,Singapore.2003。
  11. 书(第二版)数据挖掘,通过加威汉和米歇琳·Kamber概念和技术。
  12. j .贝聿铭j·汉,r .毛。“壁橱里:一个有效的算法挖掘频繁闭合项目集”。在SIGMOD国际研讨会上的数据挖掘和知识发现,2000年5月。
  13. Kunkle D,张DH,库普曼g“挖掘广义频繁项集和广义关联规则没有冗余”,计算机科学与技术杂志》23(1):77年-102,2008年1月。
  14. 何塞·l·Balcazar“冗余、扣除项目和最小大小依据关联规则”。逻辑方法在计算机科学卷。6(2:3)1-33,2010页。
  15. 湾签证官和Bac勒。Lattice-based方法“频繁闭项集挖掘最小冗余关联规则”。国际期刊的数据库理论和应用4卷,2号,2011年6月。