关键字 |
频繁模式挖掘,先验的算法,FP树,候选项集,平均计算的支持。 |
介绍 |
挖掘频繁模式在事务数据库中数据挖掘中是一个热门的研究领域。先验的算法[1]是传统算法寻找频繁模式使用一些统计等措施支持计数和信心。但是先天算法的缺点是重复数据库扫描和修剪的罕见的候选项集。生成候选项集和修剪的罕见物品如果大型数据集被认为是成本有效的。的方法提出了挖掘频繁模式没有候选人代[5]和一个高效的基于FPtree采矿方法,FP-growth开发,挖掘频繁模式的完整的片段的增长模式。[2]。在我们的论文,我们希望提高该算法的效率,提出一种方法还减少了罕见的候选人生成和提高算法的时间和空间复杂性。该算法有效的FP树有以下主要步骤: |
第一遍扫描数据库,删除的项集使用阈值avgsup很少发生。[3]。 |
-现在的大型数据库压缩到一个较小的数据结构被称为FP树。 |
-Partitioning-based、各个击破的方法用于挖掘任务分解为一系列的小任务对矿业局限条件数据库中的模式,大大减少了搜索空间。 |
处理数据库 |
第一步是前预处理数据库应用的算法。我们采取一个示例数据集应用[3]的公式推导。我们比较的正常方式生成fp树和显示这两种方法之间的区别。我们提出了一种测量称为avgsup由计算得到的n个元素的总支持计数和计算这些项的平均值。这种方法更好的修剪的罕见的物品。这样做的原因是,所有不低于这个阈值称为avgsup物品。如果有{x1, x2, x3…。xk}项目计算avgsup使用[3] |
|
下表中的示例数据集是: |
个人事务中支持项项目给出了表2: |
第一步:计算平均支持: |
|
Avgsup = (4 + 6 + 6 + 2 + 4 + 1) / 6 |
的支持数除以每一项条目的数量。avgsup的价值在我们的示例中是3.5,我们会考虑地板的价值。地板avgsup表示的价值?avgsup吗?给药3。 |
步骤2:修剪的事务数据库avgsup数小于3。我们得到以下项目视为最常见的项目 |
后删除事务不满足阈值的列表avgsup得到上面的表。 |
建设FP-TREE |
fp树构造的条目在表3中使用正常的方法建设的fp树。 |
相同的数据通常是用来生成fp树。图:2代表正常的施工方式的fp树[6]。 |
观察图1中的树我们可以说这是一种最优的方式实现fp树。图1中的树显然降低了空间复杂度与正常的生成方式相比fp树。 |
从这一点来看,我们可以了解项目d和f是罕见的和那些罕见的集项目变得更加频繁和消除这些物品从事务数据库的建设fp树不会影响频繁模式。 |
该方法的效率 |
我们使用相同的事务数据库应用先验的算法和高效的fp树的比较我们的结果与现有的先验的算法。先验的算法遵循以下步骤生成的频繁集。 |
步骤1:先验的使用广度优先搜索和哈希树结构计算候选项集效率。它生成候选项集的长度k项集的长度k - 1。 |
步骤2:然后梅干的候选人有一个罕见的子模式。根据下行关闭引理,候选集包含所有k-length频繁项集。[4] |
步骤3:在那之后,它会扫描事务数据库确定候选人之间的频繁项集。 |
观察图1和图3中,我们有相同的频繁3集。在我们建议的方法高效的fp树我们获得频繁3-item-sets只有一次扫描。但是与现有技术先天算法我们需要扫描数据库的4到5倍,应用修剪步骤消除频繁项目集。 |
结论 |
从上面我们可以看到该方法的效率与现有的技术相比。我们提出的方法可以提高时间和空间复杂性。提出了压缩数据集的方法,只需要一个扫描和两个通过频繁项集的识别。 |
表乍一看 |
|
数据乍一看 |
|
引用 |
- r . Agrawal和r . Srikant。”Fast algorithms for mining association rules in large databases.”Re-search Report RJ 9839, IBM Almaden Research Center, San Jose, California, June 1994.
- 加威汉剑裴,谊文阴,RUNYING毛”挖掘频繁模式没有候选人一代:频繁模式树的方法”的数据挖掘和知识发现,8日,53 - 87,2004年Kluwer学术出版商。在荷兰生产的。
- Sadhanakodali Kamalakar M,“先验的算法的性能改善的方法发表在IIJDWM”卷3期2. may2013。
- en.wikipedia.org/wiki/Apriori_
- 挖掘频繁模式没有候选人代SIGDOM学报》2000年。加威汉剑裴,谊文阴。
- C s n B e“FPgrowth算法的实现“OSDM 05学报第一国际研讨会上开源数据挖掘:频繁模式挖掘的实现。
/ td > |