关键字 |
数据挖掘,缺失值,ID3算法,数据迁移,决策树分类,多阵列模型,数据密度聚类。 |
介绍 |
为了找出缺失的值,有时可以使用预测来填充数据。预测应该高度准确。因此,目前我们正在使用改进的ID3算法来执行多维数组模型。修改后的ID3算法将当前空间数据库与输入数据库中的正常数据库进行比较。从数据集中,将为癌症患者创建一个操作数据库,为正常患者创建一个数据库。这个数据库将是独立的,有许多实际数据可用。结果将从数据集中恢复。患者是否会受到癌症的影响,以及他们的感染比例,以及数据迁移过程中数据库中丢失的值。并利用数据密度聚类分析癌症患者的发生情况。 |
方法 |
a)多阵列模型中的属性选择 |
ID3如何决定哪个属性多数组模型是最好的。使用了一种统计属性,称为信息增益。获得一个给定属性如何很好地将训练示例划分为目标类。信息最多的(信息是对分类最有用的)将被选中。为了分配增益,我们首先从信息论中借用一个叫做熵的概念。熵计算属性中的信息量。 |
给定一个多数组中S个c个结果的集合 |
熵(S) = S -p(I) log2p (I) |
其中p(I)是S属于I类的比例S除以c Log2是log以2为底的对数。 |
注意S不是一个属性,而是整个样本集。 |
b) ID3算法在多阵列模型中的特点 |
详细阐述了决策树ID3算法的思想。针对ID3算法的缺点,提出了一种提高生成速度的改进方法——改进ID3算法。此外,基于改进的ID3算法,利用SQL Server 2005 Analysis Services进行血癌数据挖掘,主要用于预测复发与乳腺癌其他属性之间的通信。结果证明了决策树在医疗数据挖掘方面的优势,为医生提供了诊断辅助。ID3算法可以描述决策树构造的基本约定。在决策树的开发中采用了分而治之的策略,将特征的信息增益作为树中每个节点上分支属性选择的检验函数,选择信息增益作为分支的特征。 |
c)多阵模型算法中的ID3描述如下 |
令E = D1× D2×…× Dn是有限维向量n,其中Dj |
是离散符号的有限集,E个元素E = 为样本,vjDj, j = 1,2,…,n. Let PE be the positive sample set, NE be the anti-sample set, and the number of samples which are p and n. rendering to the regulations of information theory. |
d) ID3算法基于两个假设: |
(1)在向量空间E中,任意样本的决策树分类概率与E中正样本和反样本的概率相同。 |
(2)决策树进行正确识别所需的预期信息位为: |
如果属性A是决策树的根,则A有n个值{u1, u2,…, un},将样本集E划分为n个子集{E1, E2,…,}。假设eicon包含pi正样本和负样本,则Eiis I (pi+ ni)所需信息的子集,以及属性a作为根节点所需的预期信息。因此,作为根节点A的分类属性的信息增益为gain (A) = I (p, n)-E (A)。ID3算法选择将增益(A)的最大属性贡献给节点属性的一个分支,决策树的每个节点都在使用这一原则,直到决策树完成(样本的每个节点都属于同一类或所有Category属性用完)。ID3的一个优点是它构造树的时间和任务的难度(如样本集样本的数量,每个样本的属性的数量来研究决策树节点的概念的复杂性)是线性稳定增加的,计算量相对较小。 |
文献调查 |
1.医疗保健数据库中数据挖掘技术的文献综述。 |
在这篇论文中,我们概述了目前正在进行的研究,使用数据挖掘技术的诊断和各种疾病的预后。本研究的目标是确定用于医疗数据库的性能最好的数据挖掘算法。已经确定了以下算法:决策树,支持向量机,人工神经网络及其多层感知模型,Naïve贝叶斯,模糊规则。分析表明,很难确定一种数据挖掘算法最适合疾病的诊断和/或预后 |
2.logistic回归、决策树和神经网络在心脏病患者分类中的性能比较 |
在本研究中,比较了分类技术的表现,以预测患者是否患有心脏病。对303名受试者进行回顾性分析。我们比较了逻辑回归(LR)、决策树(DTs)和人工神经网络(ANNs)的性能。医疗资料变量为年龄、性别、胸痛类型、血压、胆固醇、空腹血糖、静息心电图、最大心率、诱发性心绞痛、Ole峰值、斜率、彩色血管数量、Thal和概念级别。我们使用逻辑回归分类器,人工神经网络和决策树创建了模型,它们经常用于分类问题。利用提升图和错误率比较了分类技术的性能。 |
3.基于数据挖掘的医学诊断支持系统 |
从自动存储医疗信息系统中急剧增加的数据中发现知识仍处于起步阶段。本研究的目的是利用广泛使用、易于操作、能满足一般用户的技术提取特定知识,使医疗信息系统更具功能性。将数据可视化、相关分析、判别分析、神经网络监督分类等数据挖掘技术应用于心脏病数据库。这些技术可以帮助识别高风险患者,定义心脏病中最重要的因素(变量),并建立一个多变量关系模型,以一种易于查看的方式显示任何两个变量之间的关系。 |
4.医疗保健中的数据挖掘:当前的应用和问题。 |
数据挖掘在电子商务、市场营销和零售等高度可见领域的成功应用,使其在其他行业和部门的数据库知识发现(KDD)中得到广泛应用。在这些刚刚发现数据挖掘的领域中,有医学和公共卫生领域。这篇研究论文提供了当前KDD技术的调查,使用数据挖掘工具用于医疗保健和公共卫生。它还讨论了与数据挖掘和一般医疗保健相关的关键问题和挑战。这项研究发现了越来越多的数据挖掘应用,包括分析医疗保健中心以更好地制定卫生政策,检测疾病爆发和可预防的医院死亡,以及检测欺诈性保险索赔。 |
5.ID3算法在信息资产识别中的应用 |
在信息安全风险评估问题中,资产、威胁和漏洞是最重要的三个要素。信息资产识别是信息安全风险评估过程中的一个重要环节。本文将决策树算法应用于信息资产的识别;介绍了ID3算法的基本过程;采用ID3算法对信息系统属性数据进行分类;做出了决策树;并从中提取规则,为信息资产确认提供依据。信息安全风险评估是组织确保信息安全的基础。在信息安全风险评估所涉及的因素中,信息资产是最重要的因素。信息资产是信息系统安全策略的主要对象。 |
项目建议书 |
项目建议是对特定情况做出响应或利用的尝试,是正确启动系统分析的基本组成部分。虽然项目建议书的形式和内容并无硬性规定,但建议书应考虑以下几点: |
•业务情况或问题的细节。 |
•问题对组织的重要性。 |
•替代解决方案。 |
•可能使用计算机信息系统来解决问题。 |
对该问题感兴趣或拥有相关知识的各种人。 |
由多个部门和用户共享的系统项目通常由委员会而不是个人批准。项目提案被提交给一个委员会,该委员会决定提案的优点,并决定是否批准。董事会由来自组织各个职能领域的人员组成,他们对拟议系统的操作和信息有好奇心。 |
提出了系统 |
提出方法:采用改进的ID3算法进行决策树分类。 |
癌症是世界上最致命的疾病之一。我们的项目旨在帮助医生在早期诊断患者,从而减少死亡人数。决策树是数据挖掘分类中的一种重要分类方法。我们提出的工作是使用决策树分类方法对id3算法进行了修改,并加入了对癌症数据集的预处理步骤,以提高分类器的准确性。数据集中缺少值。在数据集的预处理步骤中,我们对其进行了解析。此外,数据集中也存在数据冲突。我们已经提出了解决这个问题的方法。在id3算法中引入了条件熵测度的概念,并对其进行了改进。在对数据集进行预处理后,将其提供给改进算法构建决策树,从而提高了分类器的准确率。 |
ID3建议使用的样本数据有一定的要求,即: |
属性-值描述——相同的属性必须描述每个示例,并且具有固定数量的值。 |
预定义类——一个例子的属性必须已经定义,也就是说,ID3没有学习到它们。 |
离散类——类必须被清晰地描述。连续的分类被分成模糊的类别,比如金属是“硬的、相当硬的、有弹性的、软的、相当软的”,这是可疑的。 |
足够的例子——因为使用了归纳泛化(即不可证明),所以必须有足够的测试用例来区分有效模式和偶然出现的模式。 |
决策树学习算法已成功应用于专家系统的知识获取。在这些系统中执行的主要任务是对未知对象的给定属性值进行归纳,根据决策树规则确定适当的分类。我们研究了决策树学习算法ID3,并使用c#编程实现了该算法。我们首先实现基本的ID3,其中我们处理具有离散输出值的目标函数。我们还将ID3的域扩展到实值输出,例如数值数据和离散结果,而不仅仅是布尔值。 |
a)改进的算法描述 |
输入: |
示例:由训练元组组成的数据集。 |
targe_属性,上面给定元组的关联目标值。 |
属性,数据集中属性的名称。 |
输出: |
T,一个具有相应决策规则的决策树。 |
方法: |
ID3(示例,Target_Attribute, Attributes) |
为树创建一个根节点 |
如果所有“Example”都为正,则返回单节点树的根,标签为+。 |
如果所有“Example”都为负数,则返回单节点树的根,label = -。 |
如果预测属性个数为空,则返回单节点树根, |
with label =示例中目标属性的最常用值。 |
否则开始 |
A =对示例进行最佳分类的属性。 |
根= A的决策树属性。 |
对于A的每一个可能值vi, |
在Root下面添加一个新的分支,对应于测试a = vi。 |
设Example(vi)是Example的子集,A的值为vi |
示例(vi)为空 |
然后在这个新分支下面添加一个label = most的叶节点 |
例中的通用目标值 |
否则在这个新分支下面添加子树ID3(示例(vi), |
Target_Attribute,属性- {A}) |
结束 |
返回根 |
b)简易ID3算法 |
首先应用经典的ID3算法,对每个属性的重要性进行计算。然后,将信息增益与属性重要度相结合,作为属性选择的新标准构建决策树。 |
假设A是数据集D的一个属性,C是关系D的类别属性 |
A与C之间的度函数可表示为: |
n AF (A) = Σ | xi1 - xi2 |i=1n |
其中ij x (j = 1,2表示两种情况)表示D的属性A取 |
第i个值和类别属性C取第j个值的样本数,n为数字 |
属性A的值。 |
然后,对关联度函数值进行归一化。假设这里 |
为m个属性,各属性关联度函数值为AF(1), AF(2),…, |
分别为AF(m)。因此,有 |
V (k) = AF (k),其中0 < k≤m。 |
AF (1) +AF(2) +…+AF (m) |
因此,Information Gain公式的临时版本为: |
获得的(A) =(我(S1, S2,…,Sm) - E (A)) * V (A) * (n - m)。 |
结论 |
输入数据集将作为具有多维功能的数据数组进行测量。这是为了提高查找丢失数据的准确性。一种改进的ID3算法用于查找癌症患者数据集中的缺失值。现有方法采用决策树分类算法。采用改进ID3算法的决策树分类方法。所提出的模型易于理解和解释,需要很少的数据准备,能够处理数值和分类数据,使用白盒模型,可以使用统计测试验证模型,鲁棒性,在大型数据集上表现良好。 |
|
参考文献 |
- 屈开社,程文丽,王俊旺。基于ID3的改进算法[J]。计算机工程与应用,39(25):104107,2003。
- Jiawei Han和MichelineKamber,“数据挖掘:概念和技术”,第二版
- 黄明1,牛文英1,梁旭,“一种改进的基于ID3的决策树分类算法及其在分数分析中的应用”,中国控制与决策会议(CCDC 2009)。
- 陈进,罗德林,穆芬祥,“一种改进的ID3决策树算法”,第四届计算机科学与教育国际会议论文集,2009
- NishantMathur, Sumit Kumar, Santosh Kumar和rajni Jindal,“基于决策树的Havrda和Charvat熵的ID3数据挖掘算法的基本策略”,国际信息与电子工程杂志,第2卷,第2期,2012年3月。
- L.Sathish Kumar, a .女士。Padmapriya,“常见疾病诊断的ID3算法性能”,国际先进计算机科学与软件工程杂志第2卷,第5期,2012年5月。
- Karmaker等人,“在决策树归纳中结合em方法处理缺失属性值”
- Au Wai-Ho, IEEE成员,Keith C. C. Chan, Andrew K. C. Wong, IEEE研究员,Wang Yang, IEEE成员,“用于分组、选择和分类基因表达数据的属性聚类”,稿于2004年9月15日;2004年12月1日修订;2005年3月1日录取。w - h的作品。区良良和陈志刚获香港理工大学资助,资助金额为A-P209和GV958。
|