发现概率收缩树下频繁序列模式在不确定数据库

D。Sugumar, P.LeveenBose

PG学者,计算机科学系,V.S.B.工程学院Karur,泰米尔纳德邦,印度
计算机科学系助理教授,V.S.B.工程学院,Karur,泰米尔纳德邦,印度

文摘

不确定数据内在在许多实际应用如移动跟踪和环境监测。挖掘序列模式的不精确的数据,如数据源自于GPS轨迹和传感器读数对这样的应用程序中发现隐藏的知识很重要。我们建立两个不确定的序列数据模型抽象从许多实际的应用程序涉及不确定的序列数据,并制定矿业潜在性的问题频繁序列模式(或p-FSPs)从数据符合我们的模型。然而,可能世界的数量非常大,这使得矿业非常昂贵。灵感来自著名的收缩压树算法,我们开发模式,有效地避免了“世界爆炸”的问题,结合我们的修剪和验证方法,达到更好的性能。我们也提出一个快速验证方法进一步加速,使边界内的模式。

关键字

频繁模式,收缩树,可能世界语义学、不确定数据库

介绍

数据挖掘,从大型数据库提取隐藏信息的过程,它是一个强大的技术和巨大的潜力,帮助企业专注于最重要的信息数据仓库。预测未来的趋势和行为数据挖掘工具,允许企业进行实践,知识决定。自动化、前瞻性分析提供数据挖掘超越过去事件的分析提供的演示工具的典型决策支持系统。数据挖掘工具可以回答业务传统上太耗费时间来解决的问题。他们清洁数据库隐藏模式,发现预测信息,专家可能错过,因为外面是他们的期望。数据挖掘是在商界准备应用程序,因为它是由三个技术已经足够成熟:

•大量数据收集

•强大的多处理器计算机

•数据挖掘算法

无线通信技术的快速进步和强大的便携式设备的日益普及,手机用户不仅可以在任何时候从任何地方访问全球信息也很容易使用他们的移动设备进行商业交易,如通过电子钱包。同时,位置采集技术的可用性,例如,全球定位系统(GPS),促进容易收购一个移动的轨迹,记录用户运动的历史。因此,我们设想,在未来的未来移动商务(MCommerce)时代,一些移动商务服务能够捕获用户的移动轨迹和购买交易。把最近宣布商店作为一个例子,它给手机用户奖励并提供当用户登记在商店和商品。预计,一些用户可能会愿意交换他们的位置,交易优惠和折扣,我们期待更多的移动商务应用程序,他们是否会承担一个商业模式类似于商店踢,将出现在未来。在这个项目旨在开发模式挖掘和预测技术,探索移动行为之间的相关性和采购交易的移动用户探索潜在的移动商务的特点。由于web 2.0技术的快速发展,许多商店使他们的存储信息,如营业时间,地点,和在线特性,例如,通过映射服务,如谷歌地图。此外,用户轨迹可以检测到带有gps功能的设备,当用户移动。当用户进入建筑物时,用户可能会失去卫星信号,直到回到户外活动。通过匹配用户轨迹与存储位置信息,用户的移动序列在一些商店购物可以提取领域。 In this proposed system we consider the mining p-FSPs using Systolic tree which accelerates the speed of processing than the existing works. Data mining, which is the exploration of knowledge from the large set of data, generated as a result of the various data processing activities. Frequent Pattern Mining is a very important task in data mining. The previous approaches applied to generate frequent set generally adopt candidate generation and pruning techniques for the satisfaction of the desired objective. Frequent pattern mining in transaction database is one of the well-studied problem in data mining. One obstacle that limits the practical usage of frequent pattern mining is the extremely large number of patterns generated. Such a large size of the output collection makes it difficult for users to understand and use in practice. Even restricting the output to the border of the frequent itemset collection does not help much in alleviating the problem.

提出工作

随着技术的发展势头特性,面向电子商务的数据挖掘将是一个非常有前途的领域。它可以自动预测客户消费趋势,市场趋势,指导公司使用移动商务技术构建个性化的商业智能。在我们的任务,我们没有一个预定义的类标签。事实上,购物车中所有商品成为属性和存在/没有其他物品必须预测。什么是需要一个可行的规则生成算法和一种有效的方法使用为此生成的规则。预测的购物车中的所有丢失的物品,我们的算法称为收缩压树的方法,加快了计算的使用itemset树(IT-trees),然后使用DS理论概念结合生成的规则。拟议的规则生成算法利用标记IT-tree从训练数据集,该算法需要创建传入itemset作为输入,并返回一个图,定义了给定的项目集的关联规则。收缩压树[5]是管线式处理元素的安排(PEs)在一个多维树模式。我们的架构的目标是模仿FP-growth算法的内存布局,实现更高的吞吐量。收缩压的角色树映射在FPGA硬件就类似于FP-tree用于软件。电子商务公司面对大量的数据,缺乏知识的狼狈。To really take advantage of this domain, however, data mining must be integrated into the e-commerce systems with the appropriate data transformation bridges from the transaction processing system to the data warehouse and vice-versa.We proposed this work which provides solution for the best use of these rich data make the e-commerce more effective and analyzing about this data mining in order to fully understand customer preferences, buying patterns, design to meet the needs of different customer groups. Let us consider an example of Mobile Commerce where the users are allowed to use the application to extract the information that they need in considering the sales options. With the help of this application our proposed system could be exposed as shown in the Figure.1.It shows the process of pattern mining by p-FSPs that uses systolic tree approach to speedup the mining process as well as the techniques can be restricted using the pruning methods to specify only the required or relevant data regarding the specified constraints which makes mining effective in the purpose of commercial activities.

答:关联规则学习:

在数据挖掘、关联规则学好是一个受欢迎的和发现有趣的研究方法在大型数据库中变量之间的关系。Piatetsky-Shapiro描述分析和呈现强烈的有趣的规则发现在数据库中使用不同的措施。基于强大的规则的概念,Agrawal等人介绍了关联规则发现规律的产品之间在大规模事务记录的数据在超市销售点(POS)系统。例如,规则{洋葱,土豆}?{汉堡}中发现超市的销售数据表明,如果一个客户购买洋葱和土豆在一起,他或她可能还买汉堡肉。可以使用这些信息作为决策的基础等营销活动,例如,促销定价或产品配售。

b . Systemflow图

基于请求的注册客户,模式挖掘是纵容过程可用的功能要求等细节,提供的列表中选择与注册数据从数据库系统,系统是指对特定领域寻求解决方案,在频繁序列挖掘处理提出收缩期树方法尽快回到请求作出响应。域被认为是通过GPS轨迹跟踪移动环境的技术。系统流持续的预处理数据库域和开采模式提供所需的信息系统。频繁和顺序项目集可以由考虑预处理技术之间的流动和频繁模式挖掘数据库建立和进一步的细节变化由请求者添加维护数据库的一致性更新调查来收集信息。更新记录用于未来的模式识别。

c .移动运动过程

管理信息对象朝着两个(或更高版本)维空间是重要的几个新兴应用程序包括交通监管,飞行控制,移动计算,等。为了避免频繁位置更新,数据库存储每个对象的运动函数o (t)啊,它返回它的位置。移动商务服务能够捕获用户的移动轨迹和购买交易。可以使用移动轨迹预测非线性模型。久经世故的人回归的非线性模型捕获对象的运动功能。因此,其预测精度高于线性模型。递归运动函数(RMF)是最准确的预测方法在文献中基于回归函数。

d .频繁项的创建

在这个阶段,我们我频繁的交易(FTransactions)为每个用户通过应用收缩期树算法使用移动事务数据库。起初,每一对(存储、项)的支持是为每个用户。频繁的模式1-transactionsare时获得支持满足TSUP的用户指定的最小支持度阈值的方法。候选人2-transaction,表明两个项目一起购买的交易,是由加入两个频繁1-transactions用户识别和商店都是相同的。例如,生成的候选人2-transaction加入因为用户识别和购买商店都U1和F,分别。因此,我们把模式作为2-transactions频繁,当他们的支持比TSUP大。最后,同样的过程重复进行,直到没有更多的候选人事务生成。我们使用一个映射表项重新设定项集以目前F-Transactions对于每一个独特的项目集,我们使用一个象征LIi(大型项目集i)来表示它,我表示顺序号。映射过程可以减少所需的时间检查是否包含在移动商务模式移动事务序列。

e .收缩压树流程

收缩压树是管线式处理元素的安排(PEs)在一个多维树模式。我们的架构的目标是模仿收缩期树算法的内存布局,实现更高的吞吐量。收缩压的角色树映射在FPGA硬件就类似于U-PrefixSpan用于软件。它并不总是实用或直接有效翻译软件算法硬件架构。我们的方法是构建树基于最大节点度的评估。当实际的节点树中的程度在某种程度上超过了估计节点度,有些频繁项目集不会被发现。假设他数据库中的条目的数量是n, K t他估计最大节点度的估计是估计收缩期树的深度是W。静态树结构中的每个节点K孩子。树的节点总数

当K很大,孩子的数量为每个节点大反过来要求每个节点有大量的接口。这将使每个节点的内部结构非常复杂。为了简化节点的复杂性,我们为每个节点分配两个相反K的接口。两个接口的一个致力于连接的第一个孩子,另一个是连接到其最近的兄弟姐妹。在我们收缩期树结构只有一个路径追溯从任何体育控制体育因为每个体育有一个独特的父母。听写的主要原则是,任何路径包含查询候选项目集将会向控制节点报告。注意,这样的路径可能含有更多的物品比查询itemset。澄清听写算法,我们认为在每个体育有两扇门。正确的门永远是敞开的。底部的门是锁着的,当没有数据应该发送给孩子图:2展示了静态收缩结构K = 2和W = 3。

收缩期树中的每个节点体系结构也称为一个处理元素(PE)。每个体育有其本地数据结构和相应的操作在接收信号从外面. .有三种处理元素在这个图。根PE上面讨论的控制节点。最右边的列的PEs的计算节点是专门用于频繁项目集听写,我们以后再谈。第三种处理元素一般PEs。树中的每个PE收缩有三个模式:写模式,扫描模式和统计模式。

写模式算法的设计原理是组合收缩期树应该有类似的布局与FP-tree给定相同的事务数据库。软件发送一个候选模式到收缩期树中。一些时钟周期后,收缩压树将候选人的支持计数模式发送回软件。支持的软件比较支持计数阈值,决定是否候选频繁模式。检查所有候选模式后阈值在软件的支持,模式挖掘。候选人的方法来获得支持计数模式被称为候选项目集(模式)匹配。扫描模式是用于确定候选项目集的听写的过程。收缩期树结构中使用的方法就是我们所说的候选项目集听写。当我们想要检查是否一个给定的频繁项目集,它被发送到收缩期树。itemset的数量将获得在收缩期树后的输出时钟周期。 The dictation must be performed after t he systolic tree is built. When the tree is in itemset dictation phase, PEs are in SCAN mode. In our systolic tree To clarify the dictation algorithm, we seem there are two doors in each PE. The right door is always open. The bottom door is locked when no data should be sent to the children. Once all items in a candidate itemset are sent to the systolic tree, a control signal signifying the COUNT mode is broadcasted to the whole systolic tree. The architecture of the systolic tree will change accordingly with response to the COUNT mode signal.

结论和未来的工作

在本文中,我们研究的问题挖掘潜在性频繁序列模式(p-FSPs)在不确定的数据库。我们的研究是建立在两个不确定的序列数据模型,许多实际的应用程序的基础。我们建议收缩期树算法从数据符合矿山p-FSPs序列水平和元素级不确定性序列模型。我们还设计验证方法来加速模式frequentness检查可以在边界限制设计. .规则的实施能够提高挖掘效率。我们设计的两种近似方法来验证概率frequentness模式基于泊松和正态分布。合成和真实数据集的实验表明,我们的收缩压树算法有效地避免“可能世界爆炸”的问题,近似PA和NA非常有效和准确的方法。我们的初步实验表明,仔细选择的大小收缩树,开采时间可以大大加速相比,目前的软件方法。未来工作可以扩展在确定的概率与用户规范,验证结果与保证质量和识别。

数据乍一看


图1	图2

引用

周赵,大燕,威尔弗雷德·Ng”挖掘潜在性频繁序列模式在很大不确定数据库”,2014。

m . Muzammal r·拉曼,“从概率数据库挖掘序列模式,”PAKDD Proc。15日,深圳,中国,2011。

w·s·h . Chen Ku, h . Wang和m . t .太阳,“RFID数据清理,利用时空冗余”在Proc。ACM SIGMOD,印第安纳波利斯,在美国,2010年。

c . c . Aggarwal y, j . Wang和j·王,“频繁模式挖掘与不确定的数据,”在ACM SIGKDD Proc。15日,巴黎,法国,2009年。

歌太阳和乔seph Z ambreno“与收缩压树挖掘关联规则”,2008。

f . Giannotti m . Nanni f . Pinelli, d . Pedreschi轨迹模式挖掘,在Proc。13 ACM SIGKDD,圣何塞,库萨,2007年。

j .贝聿铭et al .,“PrefixSpan:由前缀映射模式挖掘序列模式有效地增长,“在Proc。17 ICDE,柏林,德国,2001年。

国际期刊的创新在计算机和通信工程的研究

发现概率收缩树下频繁序列模式在不确定数据库

文摘

关键字

介绍

相关工作

提出工作

结论和未来的工作

数据乍一看

引用