ISSN:2229-371X
维奈塔古普塔一号内拉杰库马尔2普拉文库马尔3
|
相关文章at普梅德,学者谷歌 |
访问更多相关文章计算机科学全球研究杂志
采掘频繁项集是数据挖掘的一个基本任务不幸频繁项目集数描述数据常量过大无法理解常客集子集合只包含常客集,无法从子集中其他常客集推导出最常使用项集采掘法计数候选项集,确定支持度,并推送未达用户指定最小支持量的候选人除此方案外,我们可以使用交叉法识别常用项集闭合频繁项集可表示为给定事务中某些子集的交叉点 。Asservational数据库增加时,前缀树的大小也增加,难处理实验发现前缀树有效内存使用有人建议改进后,减少前缀树分支总数,从而缩小树体规模
导 言 |
数据挖掘基本上是计算机辅助信息分析过程大量数据收集无论结构如何完善,往往隐藏传统分析技术无法轻易检测的信息隐式模式。通常可用一套技术对此类信息进行有用分析,这些技术被称为知识发现或数据挖掘采掘频繁项是数据挖掘的一项重要任务 |
多数方法罗列候选项集,确定支持对象并处理未能达标最小支持对象可视之为项目集子网格中深度优先搜索枚举方法从单元素集开始向下工作 通过新项扩展常见项集除别计划外,我们可以使用交叉方法识别常用项集交叉事务方法最少研究领域 需要关注并改进应用交叉法研究较少的主要原因是它往往不与集集枚举法竞争,至少在标准基准数据集上竞争。自然地,如果项目少,(相对地)候选项集数有限,因此枚举方法搜索空间可控制大小 |
反之,交易越多,交叉法就越需要工作,特别是因为它不是线性交易数,如支持计算集枚举法随着事务数据库的增加,前缀树的大小也增长,难处理投入更多时间插入新事务并搜索交叉项克服这一缺陷尝试使前缀树更加紧凑化,以便在更少时间和空间内获取理想信息 |
基本定义 : |
关联规则挖掘关联规则采掘[1]是一种采矿类型,用于识别数据库项目中某些关联性(关联概率关系)目的是提取交易或其他数据存储库内数组项目间的趣味关联性、频繁模式、关联性或偶发结构 |
支持:-内含项目集的交易分数 |
可靠性:-表示生成关联规则真实性 |
频繁项集:-频集项集支持大于用户定义最小支持 |
闭合项集:-常用项集关闭 |
自由型集成 |
采掘频繁项集的一个重要观察点是输出量往往巨大,甚至可能超出交易数据库至矿山的大小结果,有几种方法试图减少输出,可能时不丢失信息最基本方法是将输出限制在所谓的闭合或最大常用项集 [3]限制常用集采算法输出仅闭合或甚至仅限最大频集可有时因量级下降微小信息丢失 : 从所有最大常用项集 所有常用项集重建最大项集集集闭合常用项集甚至保存支持值知识理由是,每多件集都有一个单定闭合加支持常客集非闭合支持可计算为所有闭合常客集支持值最大值关闭频繁件集最受欢迎压缩频繁件集挖掘结果 |
项目集枚举算法 |
标准查找常用项目集 w.r.t数据库T支持阈值基本由常用项目集采算法(Apriori家族除外)所采纳,深入优先搜索项目B子网格这种方法可解释为简单分治法某些选项i问题查找常用项集分为两个子题:(1)查找所有常用项集内项目i和(2)查找所有常用项集内不包含项目i逐子问题再根据另一项j划分:查找所有常用项目集i项和j项(1.1项)i项和j项(1.2)项i项,但不j项(2.1)j项,但不i项i项或j项等分治递归中出现的所有子问题都可用条件事务数据库和前缀解析前缀是一组项目,必须加到条件数据库中发现的所有常用项目集中形式上 所有子题都图普斯SC为条件事务数据库和P前缀初始问题即递归启动时的S=(T+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ |
频项集类型 |
采掘频繁项集时最先观察的是输出常量大,甚至可能超出交易数据库大小结果,有几种方法试图减少输出,可能时不丢失信息例举 : |
闭合项目集常用项集如果不存在拥有相同支持或形式式超集则称闭合 |
从所有最常项目集重建所有常项目集,因为所有常项目集至少有一个最大超集最大项集集集闭合常用项集甚至保存支持值知识注意闭合项集与完全扩展关系密切:项目集非完全扩展即闭合使用完全扩展图不表示输出限于闭合项集,因为在搜索中并非所有可能的扩展项都得到考虑(条件数据库不包含所有项)。 |
互连传递 |
我们讨论执行交叉法的两种方法:逐项计算事务集与Carpenter算法法[6]和累积制法[7] |
枚举事务集 |
Carpenter算法[6]通过罗列数组事务(或等量数数组事务索引)并交叉实现交叉法从技术上讲,所有事务索引集都分为两个子任务:(1)所有事务索引集都包含索引1和(2)所有事务索引集不包含索引1子任务再划分 w.r.t事务索引2:罗列所有事务索引集(1.1)索引1和2(1.2)索引1,但不索引22(2.1)索引2,但不索引1(2.2)索引1或索引2等 |
前缀树实现 |
现有系统指定交叉方法查找闭合频繁项集核心执行程序问题为查找数据结构存储闭合项集,使我们能够快速计算这些集与新事务相交并合并结果前缀树实现用于此目的前缀树系树形数据结构,用于存储关联数组,密钥通常是字符串与二叉树不同,树上无节点存储与节点相联的密钥,相反,树上它的位置定义了它用之作注解的密钥节点所有子代都有一个连接节点的字符串前缀,而root则与空字符串相关联值通常不与所有节点相关联,只有树叶和一些内部节点对应兴趣键前示例显示中键列节点和下方值每一个完整的英语词都与它相关联任意整数值前缀树可被视为确定性有限自动机,尽管每一边缘的符号往往隐含于分支顺序中 |
无需将密钥明文存储到节点中字形显示只是为了说明前缀树如何工作 。前缀树不需要用字符串键入相同的算法很容易改换为相似函数 顺序列表中的任何构造,例如数组或形状列表的变换具体地说,位前缀树系单个比特组成短固定比特,如整数或指针内存 |
互插ALGORITHM |
交叉方式中,先将事务添加到前缀树上后,我们需要执行前缀树上所有现有事务交叉拟用算法执行交叉点定义如下: |
更详细的程序如下:当当前sibling项等同反转式项时(即每当转出为真时),并因此项目在交叉路口中时,检验sibling表从*in开始是否包含与此项的节点,因为此节点必须表示扩展相交如果有节点,则更新支持更新阶梯字段并变量关键, 因为它们允许我们判断当前事务是否已经计算节点支持值 。节点中阶段字段值等于当前阶段时,节点已经更新,因此交易必须再次打折并取最大值最大值取用,因为我们必须确定最大数集交易支持,内含节点表示的项目集如果带交叉项的节点不存在,则分配新节点并插入树中内指示位置两种情况中(当前项目或非当前项目,即转真实或假)子树递归处理,除非当前节点小于当前交易最小项递归调用的唯一差分是,当项插入插件时,插入位置向当前节点子推进 |
规程 |
随着事务数据库的增加,前缀树的大小也增长,难处理投入更多时间插入新事务并搜索交叉项克服这一缺陷尝试使前缀树更加紧凑化,以便在更少时间和空间内获取理想信息有人建议改进后减少前缀树分支总数,以缩小树体规模 |
兹建议采取下列步骤从事务数据库中提取树 |
数据库已按初始支持值增序取用 |
使用两个参数测量前缀树尺寸和内存使用 |
a.前缀树节点总数 |
b.前缀树内现有路径总数 |
结晶 |
结论 |
交叉ap-proach研究实验显示,这种方法优于不同数据库中大多数现有技术剖面法核心为前缀数据结构,用于表示事务数据库和交叉项,并同时表示前缀树节点中与此数据结构相关的主要问题是前缀树大小前缀树大小很大,当我们处理更多反转式时。Smaller前缀树查找特定节点需要更少时间并更容易处理缩放大小背后的主要事实就是初始支持值较高的项目更有可能相交性 事务内项目排序对前缀树大小有影响排序项目解压缩支持值允许高支持项退出前缀树第一级高支持项常相交并存,同时我们在树上寻找相交项时,可以在树前缀树初层找到这些项,从而避免树上增加树枝,从而减少树前缀树分支数因此,我们的结论是,按缓冲初始支持值排列项目会减少前缀树的大小大大降低了前缀树中分支和节点总内存使用量,并反映了后缀树总内存使用量的下降效果 |
引用 |
|