所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

决策树的性能评估心脏病的危险因素

Dr.K.P.Kaliyamurthie1,D.Parameswari2
  1. 教授和负责人,部门,Bharath大学,钦奈,TN、印度
  2. Asst.教授(SG),计算机应用部门,耶路撒冷Engg学院。印度钦奈,TN
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

冠心病是指冠状循环未能供应心肌血液循环和周围组织。心肌梗死(MI)的事件,经皮冠状动脉介入(PCI)和冠状动脉搭桥手术(CABG)被调查的风险因素调查:1)在事件:一个没有modifiable-age),性,和过早冠心病家族史,b) modifiable-smoking事件之前,高血压史、糖尿病史;和2)事件:modifiable-smoking事件后,收缩压,舒张压,总胆固醇、高——密度脂蛋白、低密度脂蛋白、甘油三酯和血糖。数据挖掘分析使用C5决策树算法进行了上述三个事件使用五种不同的分割标准。C4.5是一个广泛使用的免费数据挖掘工具,是起源于早期系统称为ID3和由C5.0随之改变。它体现了新算法生成规则集,和改进是戏剧性的准确性、速度和内存。

关键字

冠心病(CHD),数据挖掘,de -转让树木,危险因素

介绍

冠心病(CHD)通常是由动脉粥样硬化引起的,这发生在脂肪物质和其他物质形成斑块积聚在墙上你的动脉。这使他们得到缩小。冠状动脉狭窄,血液流向心脏可以减慢或停止。这可能会导致胸痛(稳定心绞痛),呼吸短促,心脏病,和其他症状,通常当你是活跃的。冠心病是世界上死亡的主要原因为男性和女性。许多事情增加你患心脏病的风险:40岁的男性比女性有冠心病的风险更高。但随着女性年龄的增长(特别是在进入更年期后),他们的风险增加到几乎等于一个人的风险。坏基因(遗传)可以增加你的风险。你更有可能患上这种病如果你有家人有心脏病的历史——尤其是如果他们在50岁之前。患冠心病的风险上升你年纪越大。 Diabetes is a strong risk factor for heart disease. High blood pressure increases your risks of coronary artery disease and heart failure. Abnormal cholesterol levels: your LDL ("bad") cholesterol should be as low as possible, and your HDL ("good") cholesterol should be as high as possible to reduce your risk of CHD.
代谢综合征是指高甘油三酸酯水平,高血压,腰部多余的脂肪,增加胰岛素水平。有这组问题的人会增加患心脏病的机会。吸烟者比不吸烟者患心脏病的风险要高得多。慢性肾脏疾病会增加你的风险。已经有动脉粥样硬化或动脉硬化在另一个身体的一部分(例如中风和腹主动脉瘤)增加患冠心病。其他危险因素包括酗酒、没有得到足够的锻炼,过多的压力。高于正常水平的炎症相关的物质,如c反应蛋白和纤维蛋白原的研究可能增加罹患心脏病的风险指标。增加化学称为同型半胱氨酸的水平,一种氨基酸,也与心脏病发作的风险增加有关。

决策树学习

答:数据收集、清洗和编码
决策树学习,用于统计、数据挖掘和机器学习,使用决策树作为一个预测模型,对一个项目映射到结论项的目标价值。更具描述性的名称分类树树模型或回归树。在这些树结构,树叶代表分类和树枝代表连词的功能,导致这些分类。在决策分析,决策树可以用来视觉和明确代表决策和决策。在数据挖掘中,决策树描述了数据,但并不决定;而由此产生的决策分类树可以输入。这个页面处理数据挖掘中决策树。冠状动脉介入治疗(PCI),或冠状动脉搭桥手术(CABG)。
为每个主题收集数据在表我:1)风险因素在事件之前,)nonmodifiable -年龄,性别,和家庭历史(跳频);2)modifiable-smoking事件(SMBEF)之前,高血压(HxHTN)的历史,和历史的糖尿病(HxDM);事件和2)风险因素后,modifiable-smoking事后(SMAFT)、收缩压(SBP)毫米汞柱,舒张压(菲律宾)毫米汞柱,mg / dL总胆固醇(TC)、高密度脂蛋白(HDL)在mg / dL,低密度脂蛋白(LDL)在mg / dL, mg / dL甘油三酯(TG),葡萄糖(GLU)在mg / dL。清理数据,田野,重复提取,缺失值填充,数据编码如表1中给出。
即数据清理后,病例数如表二世,在减少主要是由于生化结果的不可用。
b .决策树进行分类
C5.0算法[25],它使用决策树归纳各个击破的方法,是使用。该算法使用选定的标准来构建树。自上而下,寻求在每个阶段属性分割的最佳分离的类,然后递归地处理子问题,从分割结果。算法使用启发式剪枝推导基于分裂的统计学意义。
算法生成的决策树[25],[26]:
输入:
1)训练数据集D,是一组训练观察和它们相关的类值。
2)属性列表,候选属性的集合。
3)选择分裂的标准方法。
输出:决策树。
方法:
1)创建一个Nd节点
2)如果所有的观察在训练数据集sameclass C输出值,然后返回Nd作为叶子节点与C标记。
3)如果属性列表为空,那么返回Nd作为叶子节点标记与训练数据集的多数类输出值。
4)选择分裂标准方法适用于训练数据集为了找到“最好”的分裂标准属性。
5)标签节点Nd分裂的标准属性。
6)消除分裂标准属性的属性列表。
7)的每个值j分裂标准属性。
)让Dj观察训练数据集满足属性值j。
b)如果Dj为空(没有观察),然后把一个叶节点标记与大多数类节点Nd值输出。
c)其他附加返回的节点生成决策树(Dj,属性列表,选择分裂标准方法)对Nd节点。
8)结束。
9)和返回节点。
在这项研究中,以下分裂标准进行调查,简要介绍:不久信息增益,基尼指数,似然比卡方统计数据,获得比,和距离测量。
1)信息增益(IG):信息增益是基于克劳德·香农信息论的工作。InfoGain的属性用于选择最佳的分割标准属性。选择最高InfoGain构建决策树[27]
InfoGain (A) = Info (D)−InfoA (D)(2.1),一个是属性调查。
图像
在哪里
π=概率(我在数据集D类);
m =类值的数量。
图像
在哪里
Dj | | =属性值的观测j
数据集D;
| | =总数量的观测数据集D;
Dj = j D包含属性值的子数据集;
v =所有属性值。
尽管信息增益通常是一个很好的衡量决定一个属性的相关性,它并不完美。应用一个问题发生在信息增益的属性可以取大量的不同值。这种情况发生时,就获得比使用。
2)基尼指数(GI):基尼系数是一个impurity-based判据,测量目标属性值的概率分布之间的分歧[28]
图像
图像
3)似然比卡方统计(χ2):似然比卡方统计量是用于测量信息增益标准的统计学意义[29]
G2 (A, D) = 2×ln (2)×| | D×InfoGain (A)。(2.6)
4)增益比率(GR):增益比率偏见的决策树对考虑与大量不同的属性值。因此,解决了信息增益的缺点[25]
图像
图像
5)距离测量(DM):距离测量、GR、规范化杂质的标准(GI)。它表明正常化以不同的方式[30]
图像
数据挖掘工具是由我们组支持C5.0决策树算法使用上述标准。过度拟合是一个重大的决策树学习的实际困难。因此,实现修剪,避免过度拟合。我们实现了自底向上的修剪算法使用拉普拉斯误差估计。而决策树建立和创建一个叶节点,然后拉普拉斯错误[31]估计如下:
E (D) = N−N + m - 1 / N + m (2.10)
在哪里
C = D类值多数类;
N = D的观察;
n =数量的观测值类C。
返回到根节点的算法,叶子节点的误差传递给父节点。父节点计算的总误差的孩子和自己的错误。如果父亲的误差小于总错误的孩子,父节点是修剪,取而代之的是一个叶节点的多数类值。如果父亲的误差大于总错误的孩子,然后不再修剪了返回的路径和误差为零。
c .分类模型研究
下面的模型集调查中给出
表二。
1)心肌梗死:MI和non-MI。科目有心肌梗死被标记为有症状,其余为无症状。
2)PCI: PCI和non-PCI。对象只有PCI被标记为有症状,其余为无症状。受试者在PCI和MI被排除在外。
3)介入治疗:CABG和non-CABG。对象只有
CABG被标记为有症状,其余为无症状。受试者在CABG和MI被排除在外。对于每一组模型,三种不同子集的运行进行了以下:
1)与风险因素在事件(B);
2)与风险因素后,事件(一个);和
3)与风险因素之前和之后的事件(B + A)。对于每一个模型,对于每一个分割准则,20分进行了随机抽样[32]相同数量的情况下用于培训和评价,如表2中给出。共有300个运行进行了模型(即每组。,20.runs × 5 splitting criteria × 3 (for B, A, and B +A datasets)]. The Wilcoxon rank sum test [33] was also carried out to investigate if there was or not significant difference between the five splitting criteria used as well as between the B, A, and B + A decision tree models at p < 0.05.
d .绩效指标
为了评估我们的结果我们使用以下的性能的措施。
1)正确分类(% CC):正确的百分比分类记录;等于(TP + TN) / N。
2)真阳性比率(% TP):对应于正面例子的数量正确预测的分类模型。
3)假阳性率(% FP):对应于负面的例子的数量错误的预测是积极的分类模型。
4)真阴性率(% TN):对应数量的负面例子正确预测的分类模型。
5)假阴性率(% FN):对应于正面例子的数量错误消极的分类预测模型。
6)敏感性:被定义为积极的例子的分数预测模型正确,等于TP / (TP + FN)。
7)特异性:被定义为分数的负面例子正确的模型预测,等于TN / (TN + FP)。
8)支持:病例数的规则适用于(或正确预测;即。,if we have the rule X → Z, Support is the probability that a transaction contains {X, Z} [26]
图像
9)信心:规则适用的病例数(或正确预测),表示为一个百分比的它(即适用于所有实例。,如果我们有规则X→信心是一个事务的条件概率有X还包含Z) [26]
信心= P (Z | X) = P (XZ) P (X)。
e .计算的风险
对于每个问题,我们使用了弗雷明汉方程[8],[10]计算事件发生的风险。我们把课程分成两类,那些有一个事件和那些没有一个事件。每个提取的规则,然后,我们发现受试者匹配规则和计算平均风险事件规则基于每个主体的风险价值(看到最后两列的表V)指出,值的风险低于5%,在5 - 10%之间,高于10%的主题分类低,中间,和高风险。

结论

1)提出了一个数据挖掘系统中提取规则冠心病事件,2)规则提取的分组为高、低风险因素,风险因素和3)规则提取与事件相关的风险,但是,这需要进一步调查。

表乍一看

表的图标 表的图标
表1 表2

引用

  1. “冠状心脏事件的风险因素的评估基于数据挖掘决策树”,米纳斯a . Karaolis会员,IEEE,约瑟夫·a . Moutiris DemetraHadjipanayi,和康斯坦丁Pattichis,高级会员,IEEE

  2. 心脏病Euroaspire研究小组”,欧洲社会调查冠心病的二级预防:主要结果,“欧元。心J。18卷,第1582 - 1569页,1997年。

  3. Euroaspire II研究小组”,生活方式和风险因素的管理和使用药物治疗冠心病患者来自15个国家,“欧元。心J。22卷,第572 - 554页,2002年。

  4. Euroaspirestusy集团“Euroaspire三世:一项调查在生活方式,风险因素和使用来自22个欧洲国家的冠心病患者的心血管药物疗法,”欧元。j . Cardiovasc。上一页。Rehabil。,16卷,不。2、121 - 137年,2009页。

  5. w . b .有,”弗雷明汉的研究贡献征服的冠状动脉疾病,”阿米尔。j .心功能杂志。卷,62年,第1112 - 1109页,1988年。

  6. m . Karaolis j . A。Moutiris, c . s . Pattichis“冠心病事件的风险评估基于数据挖掘”Proc相依生物信息学Bioeng第八届IEEE Int。,2008年,页1 - 5。

  7. 王z和w·e·霍伊”是弗雷明汉冠心病绝对风险函数适用于原住民?”地中海。j .澳大利亚,卷182,不。2、66 - 69年,2005页。

  8. p .斑纹,j .艾伯森f·兰普,M。沃克,P。Whincup、t·费伊和s·易卜拉欣博士,”弗雷明汉的预测精度在英国男性冠心病风险评分:前瞻性群组研究中,“Br。地中海,协会。卷,327年,第1270 - 1267页,2003年。

  9. 谢里登,m . Pignone, c . Mulrow”Framingham-based工具来计算冠心病的全球风险:系统回顾对临床医师的工具,”j .将军的实习生。地中海。,18卷,不。12日,第1061 - 1060页,2003年。

  10. t·a·皮尔森布莱尔、美国r·丹尼尔斯r·h·埃克尔j . m .公平,s . p . Fortmann b·a·富兰克林·l·b·戈尔茨坦博士格陵兰岛,s m .心胸狭窄的人,y, n . h·米勒.劳尔,i s Ockene r . l .焦点在于j . f . Sallis s . c . Smith, n . j .石头,和k . a . Taubert”啊哈初级预防心血管疾病和中风,指南”循环,卷106,不。3、388 - 391年,2002页。

  11. s . m .心胸狭窄的人,r·帕斯捷尔纳克,p .格陵兰岛,美国史密斯诉柱身,“评估使用multiple-risk-factor心血管风险的评估方程,”阿米尔。心脏协会。卷,100年,第1492 - 1481页,1999年。

  12. 诉Podgorelec, p . Kokol, b . Stiglic, i·罗兹曼“决策树:概述和他们的使用在医学上,“j .医疗系统。,26卷,不。5,445 - 463年,2002页。

  13. c·德”疾病预测比较关联规则和决策树”Proc, Int。相依Knowl.Manage正无穷。,Workshopealthcare Inf。"。管理。2006年弗吉尼亚州阿灵顿,17-24页。

  14. c·德e . Omiecinski l . de Braal c·a·桑塔纳n . Ezquerra j . a . Taboada d·库克e . Krawczvnska和e·加西亚诉”约束的关联规则挖掘预测心脏病,”Proc, IEEE Int。相依数据挖掘(ICDM 2001),431 - 440页。

  15. d . Gamberger和r波?skovi´c研究所Zarageb,克罗地亚,“医学预防:针对冠心病的高危人群,“Sol-EU-Net:数据挖掘决策支持(在线)。可用:http://soleunet.ijs.si/website/other/case_solutions/CHD.pdf。

  16. c . l .钱h·s·f·弗雷泽,w . j .长和r·l·肯尼迪,“diagnosemyocardialinfraction使用分类树和逻辑回归方法,”世界Congr Proc。9。地中海,正无穷。52卷,第497 - 493页,1998年。

  17. r·b·拉奥s、和r . s . Niculescu“数据挖掘改善心脏保健”ACM SIGKDD探索Newslett。,8卷,不。1,pp.3 - 10, 2006。

  18. j . Zavrsnik p . Kokol Maleiae, k . Kancler m . Mernik和m . Bigec,”罗斯:决策树、自动学习和他们的应用程序在心脏药,“Medinfo,8卷,不。2,p。1688年,1995年。

  19. k . Polat s Sahan h . Kodaz, s .冈”医学决策支持系统的混合方法:结合特征选择,模糊加权预处理和播出,“第一版。生物医学方法程序。,卷88,不。2、164 - 174年,2007页。

  20. s . A . Pavlopoulos Ch。瘀,e . n . Loukis”决定treebase主动脉瓣狭窄的鉴别诊断方法使用心脏二尖瓣返流的声音,“生物医学。Eng。在线,3卷,p。21日,2004年。

  21. c . a . Pena-Reyes“人类进化模糊建模诊断决策,”安。纽约私立高中科学。卷,1020年,第211 - 190页,2004年。

  22. k . Boegl K.-P。Adlassnig、y Hayashi t.e. Rothenfluh, h . Leitich“知识获取的医学咨询系统的模糊知识表示框架,“Artif.Intell.Med。,30卷,不。1、1 - 26,2004页。

  23. d .米奇·d·j·斯皮格尔霍尔特,c . c .泰勒机器学习、神经和统计分类。英国西萨瑟:艾利斯霍尔伍德中校,1994年。

  24. j·r·昆兰C4.5项目机器学习c·谢弗,艾德。圣马特奥市CA:摩根考夫曼,1993。

  25. 汉和m . Kamber,数据挖掘的概念和技术第二版,旧金山CA:摩根考夫曼,2001。

  26. j·r·昆兰“简化决策树”,Int。j . Man-Mach。钉。27卷,第234 - 221页,1987年。

  27. l . Breiman j·弗里德曼,c . j .石头和r . a . Olshen分类和回归树。贝尔蒙特,CA:沃兹沃思Int。集团,1984年。

  28. f . Attneave信息理论的应用心理学。纽约:霍尔特,莱因哈特,温斯顿,1959。

  29. r·洛佩兹de咒语”,一个基于距离的属性选择度量决策树归纳,“马赫。学习。》第六卷,第92 - 81页,1991年。

  30. t·尼“构造决策树在嘈杂的领域,”Proc, 2欧元。会话学习工作。,1987年,页67 - 78。

  31. l . Rokach O.Maimon,与决策树数据挖掘理论和应用程序。新加坡:世界科学,2008。

  32. f . Wilcoxon”,个人排名比较的方法,”生物识别技术1卷,第83 - 80页,1945年。

全球技术峰会