比较研究的决策树和粗糙集的预测在学龄儿童学习障碍

朱莉·m·大卫博士¹Balakrishnan Kannan博士²

计算机应用部门,MES学院、Marampally Aluva科钦107年- 683年,印度
大学计算机应用部门,科钦科技、科钦022年- 682年,印度

文摘

本文强调了两种分类方法的研究,粗糙集理论(RST)和决策树(DT)的预测在学龄儿童学习障碍(LD),重点是数据挖掘的应用。学习障碍的预测是一个非常复杂的任务。通过使用这两种分类方法我们可以很容易和准确预测LD在任何孩子。同时,我们可以确定最好的分类方法。在这项研究中,使用执行规则挖掘算法在粗糙集和J48 LEM1建设决策树。从这项研究中,得出的结论是,决策树的性能相比,几个重要的方面可能是极其贫乏的粗糙集理论。这是发现,选择属性,RST特别是在数据不一致的情况下非常有用。

关键字

决策树学习障碍,粗糙集规则挖掘、支持和信心

我的介绍。

介绍了粗糙集和决策树的比较研究,表明这些想法可能是用于数据挖掘。在1970年代末和1980年代初,j·罗斯•昆兰研究机器学习中开发了一个称为ID3决策树算法[8]。这项工作扩大在早期工作在概念学习系统。决策树方法是广泛应用于数据挖掘和决策支持系统。决策树是快速和易于使用的规则生成和分类问题。这是一个很好的工具的决定表示。

LD的预测,决策树可能是最常用的工具,从数据中提取规则而基于粗糙集的方法似乎是他们的新选择。在这两种情况下,算法简单,易于用户理解。有很少的比较研究。本文的目的是展示的重要性能差异的两种数据挖掘方法预测的LD儿童。粗糙集方法似乎对人工智能具有根本意义的,特别是在机器学习、知识获取、决策分析,从数据库中知识发现、专家系统、归纳推理、模式识别[2]。

二世。相关工作

学习障碍是一个一般术语,描述特定类型的学习问题。学习障碍是正式定义在许多国家在许多方面。使用最频繁的条款在决定孩子是否有学习障碍的区别是功能的区域。当一个人显示了这些地区之间巨大的差异的功能她或他做得好和相当大的困难是有经验的,这个孩子被描述为有学习障碍[5]。学习障碍可能会导致孩子有困难在学习和使用某些技能。最常受影响的技能是:阅读,写作,听力,口语,推理和做数学[5]。学习障碍不同孩子的孩子。一个孩子与LD可能没有同样的学习问题与有限的另一个孩子没有“治愈”学习障碍[9]。有了正确的帮助,LD儿童可以学习成功。如果一个孩子在学习阅读的意想不到的问题,写,听,说,还是数学,然后老师和家长可能会更想要调查。

当一个LD怀疑根据父母和老师的观察,孩子的一个正式的评估是必要的。父母可以要求这个评价,或者学校的建议。需要父母的同意前一个孩子可以测试[5]。许多类型的评估测试是可用的。这里我们使用检查表来评估LD由16个症状。这些症状,这些属性在这项研究中,下面的表1中列出。

三世。算法

答:设计注意事项:

的决定是一个流程图等结构,其中每个内部节点表示一个测试在一个属性,每个分支树的表示一个测试的结果,每个叶节点包含一个类标签[3]。最顶层节点树的根节点。分类器在一个树结构的形式,每个节点是叶节点表示的价值目标属性的例子或决定节点指定一些测试进行单个属性和子树的一个分支为每一个可能的结果的测试。可以使用决策树分类的一个例子,从树的根和移动,直到一个叶节点,它提供了实例的分类。有时,决策树可以给错误的预测不一致的数据时存在。在LD的情况下,错误的预测结果将使一个大问题。所以我们将考虑恢复这个问题的解决方案和使用决策树结构的简单性。

粗糙集理论是一种新的智能数学工具引入z pswlak 1982年[7]。粗糙集理论是一种客观缺陷数据的方法。根据这一理论,不需要任何额外的信息数据,因此不需要额外的反馈专家。所有的计算都是直接在执行数据集[6]。粗糙集是一种近似的工具,能够很好地在环境沉重的矛盾和歧义涉及丢失数据或数据[1]。

b算法的描述:

我们使用weka J48算法,一个机器学习的工作台,包括一个框架Java类库的形式[4]。最初我们评估的价值属性通过测量信息增益率的类。属性是由个人排名评估通过结合增益比,熵,等等。在这项研究中,我们使用J48树构建算法,模型是否正确使用weka从数据集分类75%的实例。获得的规则总结如下。

R1: (DA = N博士= N) = > (LD, N) (1)

R2:(DA = Y = N博士DH = Y) = > (LD, Y) (2)

R3: (DA = Y = N博士DHA = N) = > (LD, N) (3)

R4:(DBA = N = Y博士DLS = N, DSS = N) = > (LD, N) (4)

R5:(DBA = N = Y博士DLS = Y) = > (LD, Y) (5)

R6:(DBA = N = Y博士DLS = N, DS = Y) = > (LD, Y) (6)

R7:(博士= Y, DBA = Y) = > (LD, Y) (7)

粗糙集的应用程序开发由四个步骤组成。第一步是决策表的发展。决策表包含100个对象或例LD。对于每个案例,16属性注册。第二步是决定空间的近似。这里的近似评估对象的分类。这包括每个决策类的近似的建设对所有条件属性。近似的质量、准确性和熵措施等于1。第三个是减少属性。导出数据的提取包括施工保证同样的质量属性的最小子集排序的所有属性。最后一步是规则提取。 It is a relatively straight forward procedure. Reducts are used to generate decision rules from a decision table. The objective is to generate basic minimal covering rules or minimal number of possible shortest rules covering all the cases. The LEM1 algorithm is used to derive minimal sets of rules covering all the objects from learning sets. The algorithm generates the following six rules that predict the learning disability.

R1:(博士,Y) (DS, Y) (DH, N) DWE, Y) = (LD, Y) (1)

R2:(DH, N) (DWE N) = (LD, N) (2)

R3: (DH, Y) (DWE Y) = (LD, Y) (3)

R4:(DH, N) (DWE Y) = (LD, Y) (4)

R5:(DWE, Y) = (LD, Y) (5)

R6:(DWE, N) = (LD, N) (6)

四、仿真结果

我们可以看到,这两种方法都提供算法评估条件属性,但其内在的意义是完全不同的。在决策树的属性评价的主要目的是基于信息增益,在半群的概念,在粗糙集,基于消除决策表中的冗余属性。重点是确定最小集合保存不可分辨关系的属性。

与决策树相比,粗糙集理论能够产生不同的规则,提供良好的信任和支持。规则从粗糙集理论可能不包括冗余数据。不一致的数据可能会导致错误的属性选择的决策树。在本文中,我们使用信息增益作为决策树的属性选择方法。但数据的不一致性导致属性的错误的决心。粗糙集的属性选择更合适的。从决策树规则和粗糙集理论可以预测LD的组合输入值缺失的数据。这里,输入值视为LD的症状。所以决策树和粗糙集理论不一致的数据以不同的方式。在决策树的情况下,这样的价值观可能会导致预测,这是一个很好的反映了一般在训练数据依赖关系,预测,预测的预期和不可能。信心DT的规则获得一致的数据如下表2所示。 If the same rules applied on the inconsistent data, the confidence of the rules is reducing to a poor level, which is also shown in Table 2. The confidence of these rules, based on RST, shows a higher performance, as shown in the same table, as compared to DT with consistent data.

在这项研究中,我们可以看到,RST更合适、准确选择属性。决策树的结构属性的选择是非常重要的。粗糙集理论已被用于选择属性,因此导出的属性会发现它被认为是最好的减少属性、属性在这个导出用于描述数据。我们的目标是减少数据量。

错误的预测从决策树为所有获得一致的和不一致的数据集可以导致有限的决策树模型的精确度。决策树有指向类的决定,这不是给定的组合主要输入值不一致的数据。比较研究的结果表明,系统由决策树规则可能明显不一致的数据的正确和一致的数据和大量的变量。决策树规则的置信度较低精度而粗糙集理论。

作为预处理在数据挖掘之前,原始数据的一个子集,这足以代表整个数据集,从最初生成详细的数据中包含的信息系统。这个子集只包含最小数量的独立属性预测有限的这个属性是用来研究原来的大数据集。通常将数据库分成两部分来创建训练集和测试集。

在这项研究中,我们使用LEM1 RST算法,规则挖掘和J48算法构建DT, LD儿童的预测。比较的结果,我们注意到,RST与LEM1算法有许多优点DT解决类似问题的性质。对于大型数据集来说,可能会有一些不完整的数据或属性的几率。我在数据挖掘的概念,很难从这些规则不完整的数据集。但在RST,制定的规则永远不会受到任何这样的不完整的数据集或属性。因此,LD利用RST方法能够准确地预测。粗糙集概念的另一个优点是它可以作为一个知识发现工具发现规则的诊断LD儿童的影响。RST的重要性在这项研究中,使用单一属性,我们可以预测一个孩子是否LD。RST第六规则,显示,90%信心,只包含一个属性,这是最重要的LD的症状。如果它是与决策树相比,数据或决策树的输出是非常复杂的。另一件事是,决策树分类的输出。

诉的结论和未来的工作

本文强调了比较决策树和粗糙集理论来预测在学龄儿童学习障碍。在粗糙集理论中,LEM1算法用于规则生成和J48算法用于决策树的构建。提取规则的方法是非常有效的预测。错误的预测从决策树为所有获得一致的和不一致的数据集可以导致有限的决策树模型的精确度。决策树有指向类的决定,这不是给定的组合主要输入值不一致的数据。比较研究的结果表明,系统由决策树规则可能对不一致的数据明显不正确的和一致的数据和大量的变量。决策树一般的计算时间短和解释规则得到决策树可以促进树木的图形表示。粗糙集理论可能需要较长的计算时间,可能导致大量的规则相比,决策树。本研究进行了100多个真实的数据集的属性,代表LD的症状需要二进制值,更多的工作需要进行定量的数据,因为这是一个重要的数据集的一部分。

表乍一看


表1	表2

引用

Ashwin Kothari和AvinashKeskar。论文总体性能改善粗糙集方法的无监督ANN-BasedPattern分类器,2009年

Grzymala-Busse JW。知识获取不确定性下的粗糙集方法。智能与机器人系统学报,1988,1:3-16

汉加威和KamberMicheline:数据挖掘概念和技术,第二版,摩根考夫曼-爱思唯尔出版社,ISBN: 978-1-55860-901-3, 2008

Iftikar美国Sikder ToshinoriMunakata,应用粗糙集和决策树的表征低seismicactivity先兆的因素,专家系统与应用程序,爱思唯尔,36岁,2009年,102 - 110

朱莉·m·大卫,KannanBalakrishnan。“纸上的预测频繁学龄儿童学习障碍的迹象usingAssociation规则”,《国际会议上先进的计算,廉政公署09年MacMillion出版商印度有限公司isbn10:0230 - 63915 - 1, ISBN 13:978 - 0230 - 63915 - 7, 2009年,202 - 207

MatteoMagnani。在粗糙集理论的知识发现技术报告数据基地,2003年

pswlak z .粗糙集。Int。j .计算机和信息科学。11卷,1982年,341 - 356

昆兰jr,Induction on decision trees, Machine learning, 1(1):81-106,1986

杆佩奇,秘书。美国教育部24给国会的年度报告Individualswith残疾的实现教育采取行动保证所有残疾儿童的免费适当的公共教育,2002年