关键字 |
朴素贝叶斯、神经网络、决策树ID3,心脏病 |
介绍 |
心脏病是一种常见的问题与年龄30岁以上的所有人。胆固醇水平是另一个导致心脏病的一个主要问题。数据库中的知识发现是一个定义良好的过程包含几个不同的步骤来获得完美的准确性。数据挖掘的核心步骤,结果发现隐藏的信息和有用的知识。发现的知识将被用于医疗管理员来预测的一些疾病和心脏病等问题。未来预测病人的行为是主要的数据挖掘技术的应用。给出一个在数据库中知识发现的正式定义如下:“数据挖掘的非平凡的提取隐含未知的和潜在的有用的信息数据”[1]。 |
医学诊断是一个重要而复杂的任务,需要准确、高效地完成。这个系统的自动化非常需要帮助医生诊断和治疗[2]做得更好。可怜的临床决策可能会导致灾难性的后果,因此是不可接受的。医疗保健系统的重大挑战现在质量是预测疾病的方式。 |
医生的临床决策可能出错,给病人带来一些问题。这个系统应该自动化的方式来预测疾病的准确。在医疗系统的一个主要问题是预测心脏病发作的病人。有一些技术可以准确地预测这些东西。可用的不正确使用数据挖掘技术来预测疾病的医疗体系[10][11]。 |
相关工作 |
有许多方法和算法被用来预测心脏病发作。海等人在工作中提出的神经基础学习分类器系统分类数据挖掘任务。他们进行了13个不同的实验数据集从加州大学欧文存储库和一个人造数据集。他们表明,神经基础学习分类器系统上执行等同于监督学习分类器系统五个数据集,明显良好的性能在六个数据集和显著表现不佳在三个数据集[17]。 |
Shantakumar Kumaraswamy,在工作中提出了一个智能心脏病和有效使用数据挖掘和人工神经网络预测系统。他们还提出了心脏病预测提取重要的模式。他们用k - means聚类提取数据从仓库适合心脏病。他们用黑手党挖掘频繁模式的算法[3][4]。镍钛等人在他们的工作提出了一个决策支持系统对心脏疾病诊断使用神经网络。他们训练系统与78份病历,人类是可以避免的错误在这个系统[18]。 |
Anbarasi等人在他们的工作提出了一个增强的预测心脏病与使用遗传算法的特征子集选择。他们更准确地预测心脏病的存在减少了数量的属性。他们用朴素贝叶斯、集群和决策树方法来预测患者的诊断准确性一样获得之前减少属性。他们得出的结论是,决策树方法优于其他两种方法[15]。 |
比较上面讨论的工作,这工作是不同的使用神经网络和决策树算法以综合的方式来预测心脏病高数量的准确性[9]。 |
算法 |
有很多种数据挖掘技术领域与他们的适用性取决于可用的应用程序。统计数据提供了一个强大的量化和评价结果的基本背景。然而,算法根据统计需要修改和扩展应用于数据挖掘。我们现在描述一些分类数据挖掘技术与医疗插图的应用程序。 |
决策树包括购物车(分类和回归树)、ID3迭代一分为二(3)和C4.5。这些算法在选择不同的分裂,当阻止一个节点分裂,类分配给一个non-split节点[5]。车使用基尼系数来衡量一个分区的杂质或一组训练元组[6]。它可以处理高维分类数据。决策树还可以处理连续数据(如回归分析),但他们必须转换为分类数据[16]。神经网络将使用训练数据集进行训练,然后结果是使用测试数据进行了测试。它将显示高水平的准确性,因为数量的神经元实现[15]。 |
心脏病数据集提供的加州大学机器学习库[13]。数据集包含6属性如年龄、性别、心脏持续时间、信号,攻击的可能性。最后一个是类标签。取决于数据集属性值出现在相应的预测类标签是发生在最后的阶段。心脏病在UCI数据集可以存储库用于实验的目的[12]。预处理是一个重要的步骤在知识发现过程中,现实世界的数据往往是不完整的,吵闹的,和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据减少。数据清理例程试图填补缺失值,消除噪音,正确识别异常值和不一致的数据。在这工作,提出最可能的值是用来填补缺失值。数据转换程序把数据转换成适合挖掘的形式。 |
规范化是对分类有用的目的。通过为每个属性输入值正常化以训练元组将加快学习过程。在这部作品中,使用标准化技术是min-max正常化。min-max标准化在方程(1)[17]中讨论的定义如下: |
(1) |
代替缺失值滤波器将扫描所有(或选择)的名义和数值属性和替换缺失值的模式和意义。离散化滤波器设计数值属性转化为名义的;然而无人监督的版本并不考虑类信息一起当分组实例。风险总是存在,区别不同实例的类可以使用这样一个过滤器时被消灭。 |
框图的工作是图1所示。用于训练和测试数据集来自UCI机器学习库。数据预处理和分类。数据集分为两部分。75%的数据用于训练和25%是用于测试系统。从分类是用来测试获得的知识系统。分类的目的,我们使用神经网络和决策树。提出了神经网络架构图2所示。 |
输入层由6节点,隐藏层由3节点和输出层由2节点。只有一个隐层的处理基于输入层。最后它显示2输出,这是心脏病发作的可能性。预测是使用工具,称为快速完成的矿工工作室。输出是收到使用神经网络的神经元。表1显示了心脏病发作的汇总数据集。6属性的数据集是由包括类标签。 |
仿真结果 |
心脏病数据集来自UCI机器学习用于医疗诊断系统培训和测试。预测是使用工具,称为快速完成的矿工工作室。 |
神经网络描述 |
|
激活函数用于训练是乙状结肠函数。阈值设置和偏见基于试验和错误。示例规则生成的决策树如下: |
规则1:如果年龄年龄和性别是女性和胆固醇高然后tvdlm是肯定的 |
规则2:如果年龄很年轻,性别女,Sigdz正常然后tvdlm是否定的 |
规则3:如果年龄年龄和性别是男性和胆固醇高然后tvdlm是肯定的 |
心脏病数据集的统计分析如表2所示。这个表给出了最小值、最大值、平均值和标准偏差的所有属性。生成的输出的统计图是图3所示。 |
图4所示。接受者操作特征(ROC)曲线显示了建议的工作。图形绘制,说明二元分类器系统的性能作为其歧视阈值是不同的。曲线是由显示的是真阳性和假阳性率在不同的阈值设置。 |
结论 |
我们研究的问题约束和总结不同的数据挖掘算法。我们专注于使用不同的算法来预测若干目标属性的组合。在本文中,我们提出了一个智能和心脏病有效预测使用数据挖掘的方法。在我们未来的工作,这可以进一步提高和扩展。显著预测心脏病15属性列出。除了医学文献中列出的15我们也可以包含其他数据挖掘技术,例如,时间序列聚类和关联规则。 |
|
表乍一看 |
|
|
表1 |
表2 |
|
|
数据乍一看 |
|
|
引用 |
- Frawley Piatetsky-Shapiro,“在数据库知识发现:概述”。AAAI /麻省理工学院出版社,门洛帕克,C。一个1996年。
- K。斯”,数据挖掘技术在医疗中的应用和预测心脏病发作”。(IJCSE)计算机科学与工程国际期刊卷,02年02号2010,250 - 255,2010。
- ShantakumarB。帕蒂尔和屈服强度心脏病Kumaraswamy、“智能、有效使用数据挖掘和人工神经网络预测系统”,欧洲科学研究杂志》上,财团,第四,pp.642 - 656, 2009。
- ShantakumarB。帕蒂尔和屈服强度Kumaraswamy”,提取重要的模式从心脏病预测心脏病仓库”,计算机科学国际期刊和网络安全,卷。9第二pp.228 - 235, 2009。
- “住院治疗心脏病,中风,或充血性心力衰竭在患有糖尿病的人”,新墨西哥州特别报道:2001 - 2003,
- 从http://wikipedia.org“心脏病”
- Rumelhart, D.E.,McClelland, J.L., and the PDF Research Group , Parallel Distributed Processing, MA: MIT Press, Cambridge 1996.
- Heckerman D。,“A Tutorial on Learning With Bayesian Networks”, Microsoft Research, 1995.
- 那不勒斯,R。,“Learning Bayesian Networks”. , London: Pearson Printice Hall, 2006.
- Krishnapuram B。,et al., “A Bayesian approach to joint feature selection and classifier design”, IEEE transactions on Pattern Analysis and Machine Intelligence, Vol.69,1105 - 1111年,2004页。
- SellappanPalaniappan RafiahAwang,“智能心脏病预测系统使用数据挖掘技术,计算机科学和网络安全,国际日报》Vol.8,第二,pp.235 - 241, 2009。
- Michael Pazzani佩德罗•多明戈”的最优简单贝叶斯分类器在0 - 1损失,机器学习”,Kluwer学术出版商。在荷兰,制造pp.103 - 130, 1997。
- “心脏病数据集”,www.ucirepository.com
- ConstantinosKoutsojanniset。,“使用Neurofuzzy方法在医学应用程序”,斯普林格出版社柏林海德堡,2007年版。
- M。Anbarasi E。Anupriya N.CH.S.N。Iyengar,增强预测心脏病的特征子集选择使用遗传算法?国际工程科学和技术杂志,二,10号,pp.5370 - 5376, 2010。
- 加威汉和MichelineKamber ?数据挖掘概念与技术?,摩根考夫曼出版社,2009。
- HaiH。大坝,HussainA。阿巴斯和鑫姚明,“基于神经的学习分类器系统”,IEEE知识和数据工程,第2期,第一,pp.26-39, 2008年。
- 镍钛大师,Anil Dahiya NavinRajpal,“心脏病诊断决策支持系统使用神经网络”,德里商业评论,卷。8日,第一,第60 - 101页,2007年。
|