关键字 |
模糊层次结构、繁殖、关联规则 |
介绍 |
需要推广机制已被证明是一个关键因素对许多数据挖掘任务。有效地分析大量的数据集,目前几乎所有企业的存储在数据库中,常常需要从修剪和减少这些存储库的大小。 |
决策者通常耗费时间提取的技术细节不感兴趣(如序列号、时间与精度在几秒钟内的事务,详细的GPS位置,等等)最初存储在大型数据库。相反,他们希望获得知识在某种程度的抽象,根据自己的职业目标或性格的分析数据集。在不同层次的数据概念上表示信息。例如,一个项目,由一个条形码:040101000是一个银河系的酒吧,这是一个巧克力棒,用于修饰或说明一种零食,甚至食品集团等。 |
面向属性归纳(AOI)[1]允许压缩原始数据集到一个通用的关系提供数据分析师以简洁和总结原始信息,大量的任务相关的数据。苍老师过程采用背景知识在概念层次结构的形式,分别宣布为每个属性的分析数据库表中。 |
感应的原始关系执行attribute-by-attribute基础上一步一个脚印。方法,而简单的字符[1]: |
(1)收集任务相关数据到最初的关系 |
(2)概括的数据删除或泛化派生属性。一个属性可以删除,如果没有大量的不同的价值观和泛化层次的属性是可用的或抽象的概念在最初的关系反映在其他属性。属性值可以广义概念层次结构定义。 |
(3)聚合数据通过合并相同的元组和积累各自的数量。新属性计数必须添加到关系,跟踪原始记录,逐渐合并在属性值从一个抽象级别转换到另一个地方。值存储在计数列反映了原始记录的数量合并在一起成一个广义元组。 |
(4)向用户显示生成的(广义)表。额外的数据挖掘算法可以进一步应用于这个关系。 |
苍老师的等级特征为分析师提供了能够查看原始信息在不同层次的抽象,使他们逐渐发现有趣的数据点集中。与平面向属性归纳总结一个循序渐进的过程的概念层次结构允许详细的跟踪记录,并可能导致发现的有趣的模式在数据抽象级别最低的发生。苍老师的元组,最初(在较低的抽象级别)不匹配的要求最低支持分配给消除很少发生规律,而不是下降,逐渐进一步聚合,所以有机会达成有意义的数在更高的抽象层次。这种方法提高了泛化精度,因为现在只有那些真正罕见的记录在每个抽象级别的进一步分析淘汰。 |
相关工作 |
应用概念层次结构的概念概括数据库记录提出了汉[1 - 4]和由其他研究人员进一步开发[5 - 6]。最近,许[7]扩展的基本AOI算法泛化的数值。提到的大部分工作集中于面向属性的归纳利用脆概念层次结构,每个属性值只能有一个直接的抽象的它完全所属。 |
然而,常规概念层次结构并不是最好的通常表示复杂的依赖关系发生在由于其脆字符属性域。最近几个独立的研究人员调查了应用模糊概念的层次结构。李和金[8]使用模糊ISA层次结构,从数据建模领域,概括数据库记录更多的抽象概念。李[9]应用模糊泛化层次挖掘广义模糊量化关联规则。Cubero,麦地那、脑桥和维拉[10]提出了模糊逐渐规则进行数据汇总。Raschia, Mouaddib [11] SaintEtiq系统实现数据汇总通过扩展概念层次结构。 |
模糊概念层次结构(图1)似乎更好地捕捉人类诱导方法。Trivi al例子支持这个结论比比皆是,例如如何概括三种颜色,如黑色、灰色和白色两种抽象:黑暗,光,还是我们大陆应该分配俄罗斯联邦,考虑下一个事实几乎四分之一的国家位于乌拉尔山脉以西。在模糊概念层次结构,降低级概念可以属于多个描述符直接放置在更高层次的抽象。不幸的是,没有上述模糊感应模型侧重于保证保护的低级(原始)之间的依赖关系元组改造后他们更一般的描述符。 |
模糊概念层次结构的面向属性归纳 |
主要区别一个清晰的概念层次结构和一个模糊概念的泛化关系类型及其直接抽象这些结构建模的能力。在清爽的层次结构,每个低层概念是完全分配给只有一个直接的抽象,抽象和一个可以有许多直接的专业。在模糊概念层次结构允许一个泛化关系many-tomany字符;一个低级的概念可以有多个抽象下一个抽象层次,有关这些概念在不同的程度上。 |
模糊概念层次结构是一个增广的树结构。模糊概念层次结构中的每个链接l是底长有向弧(边缘)两个节点(即概念)之间一定重量分配给它。这种结构反映了一种模糊感应的三倍。 |
,在那里在端点的低层概念代表了信念的力量应该合格的概念当数据泛化过程移动到下一个抽象层次。在AOFI的价值规定什么分数的投票,代表原始属性值已经广义的概念ck,传播其高层表示 |
答:模型的投票传播的一致性和完整性 |
其他方法的面向属性模糊概括不专注于精确和一致的保存所有的原始数据之间的依赖关系在每个级别的感应。它限制了他们的使用在许多数据挖掘项目,进行详尽的分析的科学数据。保证精确的数据总结通过AOFI我们需要保留原来的元组数以及它们之间的关系在同一比例在每个抽象层次。换句话说,提供一个一致的AOFI我们需要确保每个记录的原始数据库的关系将在每个水平的准确计算出一次苍老师的层次结构。我们称之为一个精确的传播困境投票,此前的投票传播脆。 |
这个问题可以被保存的完整性解决AOFI模型。模糊综合层次结构是完整和一致的,当所有相邻层次的水平,和(是一种直接的抽象级别的吗),满足以下关系: |
|
换句话说,权重分配的和离开任何一个节点的链接在一个模糊的概念层次结构需要1.0 AOFI模型的完整性。 |
保存上述属性防止任何属性值(或其摘要)的计算每一步或多或少于一次面向属性的模糊感应(一致性)。它还保证一组抽象概念在每个级别的层次结构将覆盖所有发生在原始数据集的属性值(即模型的完整性)。所以我们保证不丢失正确的数元组的数量当概括他们的属性值。 |
这样的规范化表示的不确定性,这是一个常见的许多泛化过程元素,不应混淆概率依赖关系的代表。首先,模糊概念层次结构不能反映概率与低层概念可能分配给他们直接抽象的层次结构反映实际度较低层概念属于广义的术语(允许更充分的反映了自然人类推理)。其次,层次结构正常化的唯一目的的方法是保证原始光学检查过程中元组的精确表示。联合国标准化的形式上,每个概念层次结构(也)可以用来执行和completeAOI一致。规范化的层次结构可以通过执行简单的会员正常化值在所有外部链接为每个概念放在层次结构。 |
b .下钻模糊概念层次结构提供抽象概念的解释 |
从广义元组,它达到了计数值高于阈值最小的支持,可能出现在多个层次的抽象,数据分析师可能希望深入每一个广义报告描述符的定义。这可以通过递归提取低层次的组件的抽象概念。 |
获得一个解释的背后是什么特定的抽象概念,是一个重要组成部分原始数据集的广义相关的抽象层次,我们回溯的组件(低层概念)的概念。我们能够通过诱导路径的分析,这样做在AOFI被激活,导致特定的抽象。一般来说,这样的解释可以是(1)简化,只基于背景知识(只有知识激活泛化路径从概念层次结构是利用)或(2)一个详细的,知识,但基于数据分布的特征(当我们保护票数在光学检查过程中每个节点分组)。在这两种情况下,我们利用下行会员为的概念,这是来自原始(提升)成员值包含在概念层次结构和AOFI期间使用。 |
第二种方法更全面的字符,但需要更多的计算时间和相当大的内存保护的中间数据表、AOI过程中生成的。这些特征使它应用于矿业非常大的数据库。 |
近似的解释是只基于概念层次结构和广义输出表,需要更少的内存比原来的,大规模的数据集。 |
使用一个概念层次结构,我们可以解释每个抽象概念通过追踪其成员0-abstraction级别(原始属性值)。在图1中描述符包含两个概念光明与黑暗。因为这两个描述符相同的提升会员度,提出了层次结构的链接,我们可以直观地得出这样的结论:他们都描述直接推广同样,因此 |
|
推导的下行会员从模糊概念层次结构traightforward字符。每个概念ck我模糊层次结构可以解释通过一组直接专家(即的一个子集然后成员值归一化,允许一致表示模糊抽象类ck我。现在我们可以为每个抽象类提供的解释如下: |
(2) |
(3) |
和h≥K > 0, h是模糊概念层次结构的高度。 |
换句话说,我们解释每一个抽象概念通过提供直接的设置专业,和下行会员为度,反映了知识的参与(贡献)项最后抽象的建筑。 |
进一步深入在图1中,基于自底向上的成员值的分布层次链接,我们可以解释光{白色(2/3),灰色(1/3)},因此黑暗{灰色(1/3),黑色(2/3)}。我们可以为用户提供一个更详细的定义抽象的概念,这是 |
|
让这个解释清楚我们可以合并重叠的组件。保存导出定义的完整性我们应用算子代数的产品当合并所有重叠的概念 |
|
所以我们可以看到,抽象的近似解释,通过深入模糊概念层次结构,有一个过渡人物。如果我们解释,概念的子集,然后从这个集合的每个元素的概念从一组CK-2,然后也可以完全用合并的定义来解释基于一组CK-2。 |
这种方法解释的抽象概念,而微不足道的角色当没有抽象的组件(直接)专门设法达成的选票计数大于给定的泛化阈值(进一步表示T)报道,所以广义的关系作为一个单独的实体。然而,在其他情况下,我们必须确保达到一个重要的概念数较低的抽象级别(并且已经放置在最后的广义关系)不发生在高级概念的描述。否则解释会混淆的字符,因为客户机可能印象下相同的元组报告(计算)多次在不同的抽象级别。我们必须记住,最终用户数据挖掘应用程序的决策制定者,在对比专家和数据分析师,通常没有时间收集详细的知识技术应用推广数据。因此最后方程应包括限制: |
|
其中T是代表数的最小值的阈值是被客户承认为原始数据的重要聚合(如可能希望所有广义元组描述超过T = 5%的原始数据集分别报告的输出关系);和c代表原始数据的总数记录广义抽象概念ckj |
这个属性确保每个低层概念,用于派生层次的解释,并不是单独报告在最后的广义关系 |
提取多层次关联规则从有毒释放库存数据 |
数据挖掘任务,我们选择实证测试AOFI方法,是提供一个简洁而准确的总结甲苯空气中排放2001年路易斯安那州(美国环境保护署提供的最新的数据集)。我们选择这个特定的毒素,因为它是化学最常见毒物释放库存[13]报道了当地的工业设施。 |
毒物释放库存(TRI)是一个主要的EPA数据库,已根据应急计划和社区创建适合t知行为(EPCRA)在1986年。2001年三数据集包含的信息发布约650有毒化学物质。收集的数据来自21000多个生产设施位于美国。 |
当执行我们的方法在数据集我们的分析集中在三个主要方面:(1)本地化的甲苯发射器(即发现在路易斯安那州地区有很高的空气排放的化学),(2)的甲苯空气排放状态(即估计的毒性水平在不同地区的路易斯安那州),(3)工业部门负责当地中毒(即类型的企业排放空气中甲苯的路易斯安那州),由联邦SIC(例如标准行业代码)分类。 |
抽象的描述符的数量在每个数据集的概念层次结构级别分析三表1中给出。此表的第二行反映Pre-Generalization[1],在属性值转换为概念放在树叶概念的层次结构。因为这个阶段是没有增加抽象级别(表示如表1 0 -抽象级别),描述符放在概念层次的叶子实际上是原始的属性值。 |
与常规苍老师一样,我们能够提取分离泛化路径为每个属性值从概念层次结构。然而模糊泛化路径不能以列表的形式实现,但需要以树的形式表示。 |
脆的方法,我们可以订购步骤概括根据我们的喜好。可以表现为一个向量的每一个阶段代表当前抽象级别的通用属性,其元素的顺序反映了广义关系属性的顺序。在我们的示例中,由于我们推广三个表列包括任务相关的数据,我们可以形容Pre-Generalization(0, 0, 0),它反映了情况,这三个属性是在0-abstraction级别。所以最后可能的阶段(每一列中所有属性值的特点是一个单一的、最一般的概念)是一个向量(4 4 3),这表明属性FACILITY_LOCALIZATION和SIC_CODE广义第四层次的抽象,最后一个属性,例如TOTAL_AIR_EMISSION,抽象到3级(ar e最后这些水平,因为它们反映了利用概念层次结构的根)。 |
最后,广义的关系,为用户提供的信息只有重要的集群数据在抽象的层面上,提出了在表2。每个生成的元组可以被解释为一个连接的规则,描述释放甲苯在路易斯安那州(即元组存储在最初的关系)。显然,AOFI步骤的顺序可以反映不同的数据挖掘的目标。自从我们是特别感兴趣的分析什么类型的设施甲苯释放到空气在路易斯安那州我们决定推广SIC代码尽可能晚。 |
映射生成的元组抽象为特征规则时常见的抽象层次与定量信息支持这些特征,我们必须确保保存数的分布根据背景知识作为反映在模糊概念层次结构。 |
例如,如果我们特别感兴趣的业务部门被政府定为51 -(即。快速消费品的批发贸易),我们可以合并1圣,2nd和11th记录的广义关系建立以下特征规则: |
(南∨法人后裔国家∨路口)∧(5171年51——5169年∨∨)∧(∨低于低,约603)。 |
这条规则可以进一步简化形式:(∨南路口)∧51——∧低,适合18.99%的抽象描述(i.e.4.52% + 4.45% + 10.02%)的最初存储记录。然而如果我们想改变这种特性更一般的形式,如:南∧51——∧低,我们必须记住,根据给出的模糊概念层次图2中只有25%的十字路口位于路易斯安那州南部的国家,因此在这种概括总结计数的值需要适当修改: |
10.02% + 4.52% + 0.25 * 4.45% = 15.65%。 |
现在我们可以得出这样的结论:近19%的设施,这正式报告了路易斯安那州的甲苯释放到空气中,是易腐货物的批发商人,其中超过82%(即15.65/18.99 = 0.8241)位于南部的国家。所有这些51-type为设施只有少量的甲苯释放。 |
结论 |
在本文中,我们首先介绍了一个一致的模型,模糊的感应,然后应用到矿山环境数据的广义关联规则。此外,我们提出了如何生成的结果可以通过提取其近似定义向用户解释。 |
有很多方面我们可以判断本文提供的技术。普通(脆)苍老师通常会执行更高的计算效率然后AOFI。然而利用模糊概念层次结构提供了更大的灵活性在反映专家知识可以更好的模拟现实生活中的属性值之间的依赖关系,这将导致更多的满意的整体结果归纳的过程。另外计算成本可能会下降的缺点,当我们注意到,与许多其他数据挖掘算法相比,分层归纳算法只需要运行一次通过原始数据集(即大)。我们正在继续调查计算成本为大型数据集的方法。 |
|
表乍一看 |
|
|
表1 |
表2 |
|
|
数据乍一看 |
|
图1 |
|
|
引用 |
- j .汉m . Kamber“数据挖掘:概念与技术”,摩根考夫曼,纽约,纽约,2000年。
- j·汉、y Cai和n . Cercone“在数据库知识发现:一个面向属性的方法”,Proc。18 Int。相依版本y LargeData基地,温哥华,加拿大,1992年,页547 - 559。
- j .汉“数据库系统”对有效的诱导机制,理论计算机科学,133年,1994年,页361 - 385。
- 傅j .汉y”,发现多层关联规则从大型数据库”,IEEE反式。在KDE, 11(5), 1999年,页798 - 804。
- 中一段卡特,H.J.汉密尔顿,“有效的面向属性的归纳从大型数据库知识发现”,IEEE反式。在KDE, 10(2), 1998年,页193 - 208。
- R.J. Hilderman H.J.汉密尔顿,n . Cercone“数据挖掘大型数据库使用域泛化图”,杂志ofIntelligent信息系统,13(3),1999年,页195 - 234。
- c c。许”,扩展面向属性归纳算法主要价值观和数值”,专家系统与应用程序,27日,2004年,页187 - 202。
- d·h·李,M.H.金,“数据库总结使用模糊ISA层次结构”,IEEE反式内用SMC - B部分,27(1),1997年,页68 - -78。
- K.-M。李,“模糊量化关联规则挖掘广义模糊综合层次结构”,20 NAFIPS如相依,温哥华,加拿大,2001年,页2977 - 2982。
- j . c . Cubero J.M.麦地那,o .脑桥&硕士维拉,“通过模糊关系数据库依赖数据汇总”,信息科学,121(3 - 4),1999年,页233 - 270。
- g . Raschia n . Mouaddib“SAINTETIQ:模糊集合方法数据库总结”,模糊集和系统,129 (2),2002,pp。137 - 162。
- r . Angryk f .诗”,一致的模糊概念属性泛化层次结构,“诉讼的适Int。Conf。并且和知识共享,斯科茨代尔,阿兹,美国,2003年11月,页158 - 163。
- 毒物释放库存(TRI)是一个公开的EPA数据库托管在:http://www.epa.gov/tri/tridata/tri01/index.htm
|