时间和内存高效技术挖掘频繁模式挖掘

Pradeep Rupayla¹,刊登Patidar²

PG学者,部门的计算机科学,JIT Borawan, Khargone MadhyaPradesh、印度
助理教授,计算机科学部门,JIT Borawan, Khargone MadhyaPradesh、印度

文摘

频繁项目集挖掘是最受欢迎的领域之一,最常见的数据挖掘领域。同时,它是一个非常复杂和耗时的过程。尽管有许多算法可以从大量的数据集挖掘频繁模式,但仍有大量空间和我频繁的数据从不同的数据集用更少的时间和更少的内存。频繁模式挖掘是非常有用的在交叉营销,市场购物篮分析,信用卡欺诈检测。在数据库知识发现(KDD)有助于识别宝贵信息在这样巨大的数据库。这些信息可以帮助决策者在决策。最终这种类型的信息帮助各目标,销售增加,利润最大化,预测等。在本文中,我们提出了一种新颖的紧凑的数据结构为基础的方法来发现频繁模式挖掘。该方法将原始数据集转换成转换和压缩数据集&然后发现的频繁模式转换后的数据集。

关键字

数据挖掘、关联规则、支持、信心、频繁集。

介绍

数据挖掘在许多领域如市场购物篮分析至关重要,web使用挖掘,信用卡欺诈检测等新提取的信息或知识可以应用于信息管理、查询处理、过程控制、决策

数据挖掘是几个字段的集成。数据挖掘可以被定义为一个非平凡的识别的过程。

•有效

•小说

•可能有用的

•最终可以理解的模式数据。它使用技术

•机器学习

•统计

•数据库

关联规则是一种含义的X - > Y X, Y的子集的项目被称为项目集和X∩Y =Φ。关联规则显示属性值条件,经常发生在一个给定的数据集。关联规则挖掘的一个常用的例子是市场篮子分析[2]。我们用一个小例子从超市领域。项目是集

I ={牛奶、面包、黄油、啤酒}

购物市场的规则可能是{黄油、面包}= >{牛奶}这意味着如果买了黄油和面包,客户也买了牛奶。他们可以使用这些数据来调整存储布局(放置物品最优彼此),交叉销售,促销,产品目录设计和基于购买模式识别客户群体。

关联规则的形式提供信息“如果-那么”的表达方式。这些规则的数据和计算,与逻辑的if - then规则,关联规则是概率。如果90%的交易购买面包和黄油,然后还购买牛奶。

先行词:面包和黄油

结果:牛奶

信心因素:90%

除了前期(“如果”部分)和随之而来的(“然后”部分),一个关联规则有两个数字表达规则的不确定性的程度。在协会的分析前提和结论是集不相交的物品(称为项集)(没有任何物品共同之处)。

支持一个关联规则X - > Y的比例是事务的数据库,其中包含X U Y。信心和力量的关联规则X U Y的事务数的比例,其中包含X U Y包含X数量的事务。itemset(或模式)是频繁的如果支持等于或超过一个用户指定的最小支持(一般性的一份声明中发现关联规则)。关联规则挖掘是识别所有规则满足用户指定的最小支持度和最小等约束的信心(声明中发现规则)的预测能力。关联挖掘的一个关键步骤是频繁项集开采(模式),这是我的所有项集满足用户指定的最小支持度。[10]。然而大量的这些规则将修剪后应用阈值的支持和信心。因此之前的计算将被浪费。为了避免这个问题,提高的性能规则发现算法,挖掘关联规则可以分解为两个阶段:

1。发现大项目,即。,the sets of items that have transaction support above a predetermined minimum threshold known as frequent Itemsets.

2。使用大的项集生成的关联规则数据库有信心超过预定的最低门槛

频繁项目集挖掘中扮演一个重要的角色在几个领域关联规则的数据挖掘(1、2、4)仓储[10]、关联、高维聚类生物数据,分类[9]。给定一个数据集d包含k项目,项目集的数量,可以生成2 k - 1,不包括空集[1]。为了寻找频繁项集,每个项目集的支持必须由扫描计算每个事务数据集。此外另一个新算法开发[5]它使用基于图自顶向下的方法。此外,许多研究已经开发使用树结构算法,如H-mine [3], FP-growth[6],和AFP-Tree [7]。

文献调查

Aggrawal。R, Imielinski。t,阁下。[2]定义的问题找到从数据库中关联规则。关联规则挖掘可以正式定义如下:关联规则是一种含义的X - > Y X, Y的子集的项目被称为项目集和X∩Y =Φ。关联规则显示属性值条件,经常发生在一个给定的数据集。关联规则挖掘的一个常用的例子是市场篮子分析[2]。关联挖掘的一个关键步骤是频繁项目集开采(模式),这是我的所有项集满足用户指定的最小支持[14]。随着频繁的数据项集挖掘挖掘关联规则是非常重要的。因此有各种技术提出了生成频繁项集的关联规则挖掘有效。生成频繁项集的方法分为三种基本的技术。

1。水平布局为基础的数据挖掘技术。

吗?先验的算法。

吗?设计马力算法。

吗?分区。

吗?样本。

吗?一个新的改进先验的算法。

2。基于垂直布局的数据挖掘技术。

吗?辉煌的算法

3所示。预计基于数据库的数据挖掘技术。

吗?FP-tree算法。

吗?H-mine算法。

有很多用来挖掘频繁项集的算法。他们中的一些人,众所周知,在数据挖掘开始一个全新的时代。他们挖掘频繁项集和关联规则的概念。

最受欢迎的频繁项集挖掘称为FP-Growth算法引入的[5]。该算法的主要目的是消除瓶颈Apriori-Algorithm的生成和测试候选集。

辉煌的[3、11、14]算法基本上是一个深度优先搜索算法使用十字路口。它使用一个垂直数据库布局即代替显式列出所有事务;每个条目存储在封面(也称为tid列表),并使用基于交集的方法来计算itemset的支持。

山姆(分割和合并)算法建立了[10]是一个简化的已经相当简单RElim(递归消除)算法。而RElim代表一个(有条件的)数据库的存储一个事务列表为每个项目(部分垂直表示),分割和合并算法只使用单个事务列表(纯粹的水平表示),存储为一个数组。

分区算法[1]发现频繁的元素是基于n地区分区数据库的基础。它克服了大型数据库的内存问题不符合主内存,因为一小部分的数据库很容易融入主内存。

沉浸在(12、13),提出的改进算法是基于组合扫描和反向扫描一个给定的数据库。如果满足一定的条件下,改进算法可以大大减少迭代,扫描时间所需的发现候选项集。假设频繁项目集,所有的非空的子集是频繁的,矛盾的给定的条件是一个非空的子集不频繁,项目集并不频繁。基于这一思想,提出了一种改进方法通过结合正向和反向思考:发现最大频繁项集的最大项目集第一,然后,把所有的非空的频繁项目集的子集。

算法

输入:

一个事务数据库TDB

MST——最小支持度阈值

步骤1:扫描数据库(TDB)找到每个单项的支持计数。这个结果存储在一个名为表的新数据结构

步骤2:比较表的每个元素的支持的最低门槛。如果任何元素的支持不太那么最小阈值则丢弃该元素。现在安排的所有元素表数减少订单的支持。

步骤3:丢弃所有步骤2中的罕见的项目从最初的TDB被丢弃。通过这种方式,我们将得到一个新的NTDB的事务将包含元素支持计数大于阈值。现在重新排列的所有事务NTDB减少订单的项数。

步骤4:所有事务及其计算存储在多维表(MTable)。然后选择事务的最高计数大于最低阈值的大小。如果没有这样的事务发现然后选择最高的,第二高的大小事务生成第二个最高的项集。继续这个过程,直到发现频繁项集与更大的支持计数。

第五步:应用一个先天属性步骤4的结果。

第六步:扫描NTDB定位项目频繁但仍然没有包含在频繁项集的列表。减少NTDB根据这些物品。它叫做剩下事务数据库(LOTDB)。

第七步:如果没有这样的事务中存在NTDB然后去其他步骤8重复步骤3 - 7所示

第八步:停止

输出:一组fo频繁的元素。

结果分析

输入数据集

输入数据集如下:

1 3 4

2 3 5

1 2 3 5

2个5

1 2 3 5

1 3 4

2 3 5

1 2 3 5

2个5

1 2 3 5

MST是40%。

以前的算法:

算法的结果如下:

输出:

1增刊:6

2增刊:8

3增刊:8

5增刊:8

1 2增刊:4

1 3增刊:6

1 5增刊:4

2 3增刊:6

2 5增刊:8

3 5增刊:6

1 2 3增刊:4

1 2 5增刊:4

1 3 5增刊:4

2 3 5增刊:6

1 2 3 5增刊:4

算法

算法的结果如下

1增刊:6

2 1增刊:4

3 1 2增刊:4

5 1 2 3增刊:4

5 1 2增刊:4

3 1增刊:6

5 1 3增刊:4

5 1增刊:4

2增刊:8

3 2增刊:6

5 2 3增刊:6

5 2增刊:8

3增刊:8

5 3增刊:6

5增刊:8

图示的结果分析:-

1。内存比较之前的和算法

2。频繁项目集发现以前的算法:

1。时间智慧比较之前的算法:

结论

数据挖掘是许多年轻科学家的心喜欢的话题。这是因为它已广泛应用于许多实际的应用程序,从交叉营销对疾病的预测。它也被运用于专家系统。摘要提出了一个增强的数据挖掘技术。这种技术获取所有相关的频繁模式从一个大数据集通过使用较少的CPU时间&空间相比,现有的方法。比较结果也表明,该工作在更短的时间内发现的频繁模式。

数据乍一看

> >


图1	图3.1	图3.2

图3.3	图3.4	图3.5

引用

Savasere、大肠Omiecinski Navathe。“一个有效的算法在大型数据库中挖掘关联规则”。Proc。如您Conf.Very大型数据基地(VLDB), 1995年9月,页432 - 443。
Aggrawal。R, Imielinski。t, Swami.A。“在大型数据库中挖掘关联规则集之间的项目”。Proc。如您的Conf. the1993 ACM SIGMOD华盛顿会议上,美国。
Agrawal。R和Srikant.R。“快速算法挖掘关联规则”。Proc。如您相依超大型数据基地(VLDB), 1994年9月,页487 - 499。
布林。年代,Motwani。R, Ullman。J。D,提苏尔。“动态项集计数和暗示市场购物篮分析规则”。在Proc.ACM-SIGMOD如相依数据的管理(SIGMOD), 1997年5月,页255 - 264。
Borgelt。“FP -增长算法的实现”。Proc。车间开放的数据挖掘软件,1 - 5。2005年ACMPress,纽约,纽约,美国。
汉族。J,裴。J,阴。没有候选人一代”y“挖掘频繁模式。Proc。ACM-SIGMOD如相依管理数据(SIGMOD), 2000年。
公园。j·S,注:硕士Chen Yu。“一个有效的基于散列算法挖掘关联规则”。Proc。ACM-SIGMOD如Conf.Management数据(SIGMOD),圣何塞,CA, 1995年5月,页175 - 186。
贝聿铭。J,汉族。J。H, Nishio.S。唐。美国和杨。d .“H-mine: Hyper-structure频繁模式的挖掘大型数据库”。在Proc.Int孩子相依数据挖掘(ICDM), 2001年11月。
C.Borgelt。先天的“有效实现和辉煌的成就”。Proc。1日IEEE ICDM研讨会频繁项目集MiningImplementations, CEUR研讨会论文集90年,德国亚琛2003。
Toivonen.H。“抽样大型数据库关联规则”。Proc。如您相依超大型数据基地(VLDB), 1996年9月,孟买,印度,页134 - 145。
NizarR。Mabrouken C.I.Ezeife。序列模式挖掘算法的分类”。在ACM Proc.计算调查,43卷,没有1,第三条,2010年11月。
朱Dongme阳光、ShaohuaTeng(音译),海滨,“一个算法来改善先天的有效性”。Proc。如您Conf. on6th IEEE Int。Conf.认知信息(ICCI ' 07), 2007. - 66 - 70页。
加威汉,MichelineKamber,摩根Kaufmann“数据挖掘概念与技术”出版商,2006
贝聿铭。J,汉族。J。H, Nishio.S。唐。美国和杨。d .“H-mine: Hyper-structure频繁模式的挖掘大型数据库”。在Proc.Int孩子相依数据挖掘(ICDM), 2001年。