在不同的数据库中关联规则挖掘的应用

任努卡井斜,m .博士^{* 1}答:婴儿sarojini太太²

MCA部门助理教授Sree Saraswathi Thyagaraja学院Pollachi。Bharathiar大学,哥印拜陀,泰米尔纳德邦,印度。
计算机科学研究学者,Sree Saraswathi Thyagaraja学院Pollachi。Bharathiar大学,哥印拜陀,泰米尔纳德邦,印度。

通讯作者:任努卡井斜,m .博士电子邮件:renuga.srk@gmail.com

文摘

数据挖掘使用专家的方法和技术来识别趋势和概要文件隐藏在数据。采矿是一个序列的迭代过程。来自不同数据源的数据,比如不同的数据库。矿业取决于数据库。本研究为各种不同的数据库的关联规则挖掘应用。有不同的数据库如大型数据库、分布式数据库、医学数据库、关系数据库、空间数据库。他们开采利用数据挖掘技术。为决策关联规则是最重要的。他们与关联规则挖掘技术。

关键字

数据挖掘、关联规则挖掘、空间数据挖掘、RDBMS,医学数据库、大型数据库、分布式数据库。

介绍

数据挖掘有许多技术、方法、规则等从大型数据库中提取一个特定数据。协会主要是用于决策等措施支持和信心。协会在许多数据用于寻找模式。协会可以帮助企业在营销和其他领域的做出决定。决策中最重要的是关联规则挖掘。关联规则挖掘是发现关联规则,实现预定义的尽可能从该数据库的支持和信心。两种类型的关联规则挖掘在大型数据库中使用。一个是正面的关联规则挖掘。第二个是负关联规则挖掘。负关联规则挖掘在决策结果作为有力的作用。 Association rule mining seeks to discover associations among transactions encoded in a database. It can be used to improve decision making in a wide variety of applications such as: medical diagnosis, GIS, relational database, large database and distributed database etc. These databases are reviewed. This study discuss about how the association rule mining used in different databases.

图1指的是关联规则数据挖掘的体系结构。警报到达安全操作中心(SOC),在SOC分析师分析关联规则数据挖掘的数据;他们在短期内存储在一个数据库监控数据库。从这个临时数据库中提取生成的所有警报在一天之内对所有数据库并加载到一个分析数据仓库。在这个仓库执行的数据挖掘算法与目标产生新的检查规则安装在ESM(企业安全管理系统)。检查来自不同数据库的数据。

文献[5]提出了一个入侵检测方法在使用关联规则挖掘大型数据库。参考[10]引入了一个新的医疗技术使用关联规则挖掘大型数据库异构基因组数据。遥感图像/数据挖掘的关联规则在空间挖掘侗族et al(2000)提出的。决策在商业环境中使用关联规则挖掘类产品分类决策[2]提出的,[3]和[12]。

关联规则挖掘在大型数据库:

关联规则挖掘用于矿山销售在大型数据库项目之间的交易被认为是一个最重要的数据库研究领域。测量大型数据库的使用有不同的技术。修剪策略和有趣的是测量技术测量大型数据库。大型数据库包含很多领域。每个字段包含自己的过程。他们不同取决于他们的工作领域。假设我们考虑客户每笔交易的大型数据库的事务由顾客购买的商品在访问参观的客户,购买的商品购买,付款类别、净额等所以这是一个乏味的过程保持大量的客户事务。

一个高效的算法实现关联规则挖掘。先天的关联规则挖掘算法是最好的大型数据库。该算法生成所有重要关联规则在大型数据库项目之间。今天,大多数研究相关工作在数据挖掘关联规则鼓励一个广泛的应用领域,如金融交易、工程、医疗、GIS和广播。关联规则挖掘用于产生之间有趣的关联或相关关系在大型数据库中大量的物品。在大型数据库中关联规则挖掘在购物篮分析中的应用

一。分析了销售事务

b。从使用客户买什么信息来提供洞察他们是谁和为什么他们确定购买

c。从哪些产品一起购买,哪些是最愿意支持。

Agrawal & Srikant提出了一个著名的方法是先验的算法。这种方法是一个迭代的过程。每个迭代都有两个步骤。

第1步:生成一组候选项集。

步骤2:删除所有不合格的候选人(即所有罕见的项集)。

迭代开始大小两个项集和每个迭代规模递增。该算法取决于频繁项集的闭包性质:如果一组物品是频繁的,那么所有的适当的子集也频繁。这个算法的缺点是生成大量的候选项集和需求在每一次迭代时扫描数据库一次。为了克服上述缺点,提出了汉和裴&阴FP-tree和FP-growth算法。FP-tree的想法是从数据库中获取所有事务,并将它们插入一个压缩的树结构。然后,FP-growth算法读取从结构FP-tree挖掘频繁项集。

参考[9]建立了其算法的有效性通过放在销售数据从大型数据库中获得。对于这个数据集,该算法显示了卓越的性能。评估方法精度高和修剪技术修剪了一个非常大的项目集的分数没有确定。

关联规则挖掘在医学数据库:

关联分类规则挖掘的关联规则挖掘与分类规则挖掘集成。它是用于医学数据库。

基于医院体检数据库,[13]在他们的文章说建立一个关联规则挖掘系统,并通过建立系统的医务人员在信息管理和分析中,应用程序的基于遗传算法的关联规则挖掘算法进行数据挖掘。期待帮助医院管理系统的建立和实施医疗信息。从医院和医疗信息,挖掘关联规则的现实意义;您可以使用这些规则指导医务人员的日常生活,并为公共卫生提出建议。改进的Pc和点自适应算法是用于维护控制体重。

关联规则可以使生物重要的不同基因之间的关联或环保物品和基因表达之间的关系。一个关联规则的形式lh⇒, lh和RHS分离集的项,RHS集可能发生在任何时间的lh组发生。物品在基因表达数据可以包括基因非常铰接或抑制,以及相关事实标记细胞的基因的氛围。

在许多医疗保健设置,病人偶尔访问医疗专家和报告多个医疗疾病,或症状,每次遇到。统计建模技术,称为层次关联规则模型(伤害)由[11],预测病人的未来可能的症状的病人的当前和过去的历史作证的症状。这种技术的主要是选择预测的贝叶斯层次模型关联规则(如“症状症状1和症状2→3”)从大量的候选规则。因为这种方法“借力量”使用许多类似的症状患者,它能够提供专业预测任何病人,即使小症状的病人的历史信息是可用的。

关联规则相关疾病数据测量病人的危险因素和疾病的医学术语。关联规则的医疗后果估计指标与通常的支持和信心。关联规则是用于比较分析与决策树规则挖掘,一个著名的机器学习方法。

关联规则挖掘在分布式数据库:

数据库或数据仓库可以存储大量的数据(大型数据库)已被敌军布上了地雷。在大型数据库中挖掘关联规则可能需要广泛的处理能力。分布式系统是大型数据库挖掘中解决这个问题。许多大型数据库分布更可行的分布式系统使用分布式算法。分布式计算的大型项目集遇到某些不同的并发症。使用不同的分布式算法来解决这个并发症。如

分布式关联规则学习

b。分布式层次聚类

c。集体PCA和PCA-based集群

d。集体决策树学习

e。集体的贝叶斯网络学习

f。其他分布式聚类算法

通信和计算问题的响应时间是衡量成功的一个更好的响应时间,在分布式环境中使用的处理器数量优化[8]提出的分布式算法。集中式数据挖掘分布式数据库中发现有用的模式并不总是可行的,因为合并数据集从不同网站维持巨大的网络通信成本。基于良好的性能水平的一种改进算法[1]提出的数据挖掘。他们的研究是培养一个分布式算法在地理上分布的数据集,减少沟通成本,优越的运行效率,以及更强的可伸缩性比直接使用顺序算法在分布式数据库。

分布的高阶关联规则挖掘算法来确定命题规则建立在高阶关联在一个分布式环境中,也发现一个关键的假设在现有的关联规则挖掘算法,排除他们从扩展到复杂的分布式环境中完整的全球模式不确定,数据不一致在一个混合非均匀、非横向形式,错误发生在记录链接。

一个创新应用演绎规则介绍分布式关联规则挖掘的成就项目集的可微性温和的通信开销和开发响应时间。一个新的算法,矿山可诱导的和non-derivable频繁项集在一个分布式数据库,[6]。

关联规则挖掘在关系数据库:

越来越越来越多的组织正在安装大型数据仓库使用的关系数据库技术。有一个巨大的需求挖掘的知识从这些数据仓库。关联规则挖掘是用来决定解决这个问题。

关系关联规则和监督学习方法有助于识别疾病在某种疾病的概率。可以简单地扩展这个接口添加新的特定疾病的症状类型,并通过定义新的这些症状之间的关系。模糊关联规则挖掘II处理关系在关系数据库和事务数据。

许多工业利用关系数据库的数据库应用程序。它是用于存储、操作和重新打从大型数据库管理数据。通过从关系数据库中关联规则挖掘利用数据库索引和查询优化过程应用于关系数据库管理系统开发的性能和提高效率。在关系数据库中关联规则挖掘的过程是认识到一个项目的依赖(s)对其他项目(s)的存在。这有助于研究顾客的购买模式。

提出的算法SETM [7]。建议执行多个连接和关联规则挖掘种面向集合的算法可能似乎根本不如专用算法有效。为了解决这一问题必须开发创新的算法,可以表示为SQL查询,并讨论这些算法的优化。算法SETM只使用简单的数据库原语,即,排序和合并扫描联接。SETM算法简单、快速、稳定的参数值的范围。种面向集合的本质SETM算法简化了开发的扩展关系数据库挖掘。

图2解释了多关系数据库环境。基于关联规则挖掘的发展是一个迷人的和危险的工作。因为它想要所有的数据信息保存在不同的地方,能够把不完整的结果从特定的RDBMS的到一个特定的结果。特定的数据库必须分析创建本地决策规则。这将是该组织更容易做出决定基于规则创建的特定的分支,而不是使用原始数据。

关联规则挖掘在空间数据库:

空间数据挖掘是迷人的发现从大型地理空间数据库模式。它指知识的提取、空间协会或其他有趣的模式显然不是存储在空间数据库中。数据挖掘中关联规则是围绕空间空间物质之间的关系。空间数据库包含对象由空间场景描述和/或扩展以及一些非空间属性。空间数据更多方面的创新过程比关系数据。空间数据挖掘算法需要考虑物质的邻居为了我的有用的知识。它是必不可少的,因为邻居的属性有些好奇的物质可能有重大的启发物质本身。空间数据挖掘算法有几个优点。类似于关系标准语言SQL,

。使用标准的原语将加速新数据挖掘算法的开发,也会使他们更便携。

b。开发方法来有力地支持该数据库原语,从而加快数据挖掘算法都是基于数据库的原语。空间数据挖掘的基本操作可以被纳入商业数据库管理系统。这将提供奖金福利等数据挖掘应用程序

一个高效的存储管理,

b)预防不一致,

c)索引结构来支持不同类型的数据库查询这可能是数据挖掘算法的一部分。

数据挖掘技术的应用在空间数据库普查数据,和更普遍的是,官方数据,在支持也有巨大的潜力值得公共策略和维护的实际操作一个独立的社会。空间数据挖掘方法和程序提出了挖掘隐藏的知识,空间关系或其他模式显然不是存储在空间数据库中。

空间数据挖掘中使用

一。美国国家航空航天局地球观测系统(EOS)地球科学数据

b。司法犯罪国家机构的赵舒映射

c。统计局、商务部部门人口普查数据

d。交通部门的交通数据(点)卫生研究院(NIH)国家机构的赵舒癌症集群

结论和未来的工作:

关联规则挖掘在重要区域的数据挖掘进行至关重要的作用。它也引发了许多令人兴奋的问题扩大的组织和有效的技术。后仔细一看,才发现我们发现关联规则的应用需要更多的调查为了帮助更多明确的目标。应用关联规则挖掘大型分布式数据库——企业,如物流、市场营销和政府——几乎所有分支如国防、公共安全、GIS空间数据库,关系数据库——行业、医疗数据库,医疗诊断,医院,医疗商店、扫描中心……未来的工作是找出更好的支持和信心不同的关联规则挖掘算法。

引用

j . Arokia Renjit Dr.K.L。Shunmuganathan”,挖掘使用一种改进的分布式数据库的数据挖掘算法”,7卷,3号,2010年3月[(IJCSIS)国际计算机科学与信息安全)。
玻雷吉,T。,Goethals, B., Swinnen, G., Vanhoof, K. and Wets. G, “A Data Mining Framework for Optimal Product Selection in Retail Supermarket Data: The Generalized PROFSET Model”, 2000 [SIGKDD].
玻雷吉,T。,Swinnen, G., Vanhoof, K. and Wets.G, “Using Association Rules for Product Assortment Decisions: A Case Study”, 1999 [SIGKDD].
咚,J。,Perrizo, W., Ding, Q. and Zhou, J., “The application of association rule mining to remotely sensed data”, 2000 [Proceedings of the ACM symposium on applied computing].
李,W。,Stolfo, S.J. and Mok, K.W., “A data mining framework for building intrusion detection models”, 1999 [IEEE Symposium on Security and Privacy].
M Deypir和M H Sadreddini”,使用非可诱导的分布式关联规则挖掘频繁模式”,33卷,B6,页511 - 2009[伊朗科技期刊、事务B:工程)。
莫里斯Houtsma和阿伦•偶像”种面向集合在关系数据库中关联规则挖掘”,17卷,第262 - 245页,1995(数据和知识工程)。
帕拉维·埃呀尔Dubey,“分布式数据关联规则挖掘”,卷。3,问题1,ISSN: 2229 - 5518年,2012年国际科学和工程研究杂志》上。
Rakesh Agrawal,托马斯Imielinski和阿伦•偶像”在大型数据库中挖掘关联规则集之间的项目”,1993年5月(ACM SIGMOD学报》发布会上,华盛顿特区,美国)。
Satou, K。,Shibayama, G., Ono, T., Yamamura, Y., Furuichi, E., Kuhara, S. and Takagi, T., “Finding association rules on heterogeneous genome data”, 1997 [PSB].
泰勒·h·麦考密克、C鲁丁和D马迪根”层次关联规则挖掘模型的连续事件:一个自动化的医疗症状预测”方法,2000年应用统计学编年史》(报)。
王、k和苏',“Item Selection by Hub-Authority Profit Ranking”, 2002 [SIGKDD].
鑫航机徐Qiuhong年代,Hongtao Z, Lei W和Y刘,“研究和应用基于遗传算法的关联规则挖掘方法”,2012年(第二届国际会议上计算机应用和系统建模)。