所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

预测心脏病发作的风险,使用神经网络和决策树

S.Florence1,净收益Bhuvaneswari Amma的2,G.Annapoorani2和K.Malathi2
  1. PG学者,印度信息技术研究所Srirangam Tiruchirappalli、印度
  2. 教员,印度信息技术研究所Srirangam Tiruchirappalli、印度
  3. 助理教授,大学工程学院,校园,Tiruchirappalli、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

医疗环境越来越多的数据丰富,但是知识获取的数据量非常少,因为缺乏数据分析工具。我们需要从数据隐藏的关系。在医疗保健系统预测心脏病完美,有一些已经在使用的技术。有一些缺乏准确性朴素贝叶斯技术可用。这里,本文提出了系统使用神经网络和决策树ID3预测心脏病发作。这里6属性的数据集是用于诊断心脏病发作。使用的数据集是心脏病acath UCI机器学习库提供的数据集。预测的结果比其他技术提供更多准确的输出。

关键字

朴素贝叶斯、神经网络、决策树ID3,心脏病

介绍

心脏病是一种常见的问题与年龄30岁以上的所有人。胆固醇水平是另一个导致心脏病的一个主要问题。数据库中的知识发现是一个定义良好的过程包含几个不同的步骤来获得完美的准确性。数据挖掘的核心步骤,结果发现隐藏的信息和有用的知识。发现的知识将被用于医疗管理员来预测的一些疾病和心脏病等问题。未来预测病人的行为是主要的数据挖掘技术的应用。给出一个在数据库中知识发现的正式定义如下:“数据挖掘的非平凡的提取隐含未知的和潜在的有用的信息数据”[1]。
医学诊断是一个重要而复杂的任务,需要准确、高效地完成。这个系统的自动化非常需要帮助医生诊断和治疗[2]做得更好。可怜的临床决策可能会导致灾难性的后果,因此是不可接受的。医疗保健系统的重大挑战现在质量是预测疾病的方式。
医生的临床决策可能出错,给病人带来一些问题。这个系统应该自动化的方式来预测疾病的准确。在医疗系统的一个主要问题是预测心脏病发作的病人。有一些技术可以准确地预测这些东西。可用的不正确使用数据挖掘技术来预测疾病的医疗体系[10][11]。

相关工作

有许多方法和算法被用来预测心脏病发作。海等人在工作中提出的神经基础学习分类器系统分类数据挖掘任务。他们进行了13个不同的实验数据集从加州大学欧文存储库和一个人造数据集。他们表明,神经基础学习分类器系统上执行等同于监督学习分类器系统五个数据集,明显良好的性能在六个数据集和显著表现不佳在三个数据集[17]。
Shantakumar Kumaraswamy,在工作中提出了一个智能心脏病和有效使用数据挖掘和人工神经网络预测系统。他们还提出了心脏病预测提取重要的模式。他们用k - means聚类提取数据从仓库适合心脏病。他们用黑手党挖掘频繁模式的算法[3][4]。镍钛等人在他们的工作提出了一个决策支持系统对心脏疾病诊断使用神经网络。他们训练系统与78份病历,人类是可以避免的错误在这个系统[18]。
Anbarasi等人在他们的工作提出了一个增强的预测心脏病与使用遗传算法的特征子集选择。他们更准确地预测心脏病的存在减少了数量的属性。他们用朴素贝叶斯、集群和决策树方法来预测患者的诊断准确性一样获得之前减少属性。他们得出的结论是,决策树方法优于其他两种方法[15]。
比较上面讨论的工作,这工作是不同的使用神经网络和决策树算法以综合的方式来预测心脏病高数量的准确性[9]。

算法

有很多种数据挖掘技术领域与他们的适用性取决于可用的应用程序。统计数据提供了一个强大的量化和评价结果的基本背景。然而,算法根据统计需要修改和扩展应用于数据挖掘。我们现在描述一些分类数据挖掘技术与医疗插图的应用程序。
决策树包括购物车(分类和回归树)、ID3迭代一分为二(3)和C4.5。这些算法在选择不同的分裂,当阻止一个节点分裂,类分配给一个non-split节点[5]。车使用基尼系数来衡量一个分区的杂质或一组训练元组[6]。它可以处理高维分类数据。决策树还可以处理连续数据(如回归分析),但他们必须转换为分类数据[16]。神经网络将使用训练数据集进行训练,然后结果是使用测试数据进行了测试。它将显示高水平的准确性,因为数量的神经元实现[15]。
心脏病数据集提供的加州大学机器学习库[13]。数据集包含6属性如年龄、性别、心脏持续时间、信号,攻击的可能性。最后一个是类标签。取决于数据集属性值出现在相应的预测类标签是发生在最后的阶段。心脏病在UCI数据集可以存储库用于实验的目的[12]。预处理是一个重要的步骤在知识发现过程中,现实世界的数据往往是不完整的,吵闹的,和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据减少。数据清理例程试图填补缺失值,消除噪音,正确识别异常值和不一致的数据。在这工作,提出最可能的值是用来填补缺失值。数据转换程序把数据转换成适合挖掘的形式。
规范化是对分类有用的目的。通过为每个属性输入值正常化以训练元组将加快学习过程。在这部作品中,使用标准化技术是min-max正常化。min-max标准化在方程(1)[17]中讨论的定义如下:
方程(1)
代替缺失值滤波器将扫描所有(或选择)的名义和数值属性和替换缺失值的模式和意义。离散化滤波器设计数值属性转化为名义的;然而无人监督的版本并不考虑类信息一起当分组实例。风险总是存在,区别不同实例的类可以使用这样一个过滤器时被消灭。
框图的工作是图1所示。用于训练和测试数据集来自UCI机器学习库。数据预处理和分类。数据集分为两部分。75%的数据用于训练和25%是用于测试系统。从分类是用来测试获得的知识系统。分类的目的,我们使用神经网络和决策树。提出了神经网络架构图2所示。
输入层由6节点,隐藏层由3节点和输出层由2节点。只有一个隐层的处理基于输入层。最后它显示2输出,这是心脏病发作的可能性。预测是使用工具,称为快速完成的矿工工作室。输出是收到使用神经网络的神经元。表1显示了心脏病发作的汇总数据集。6属性的数据集是由包括类标签。

仿真结果

心脏病数据集来自UCI机器学习用于医疗诊断系统培训和测试。预测是使用工具,称为快速完成的矿工工作室。

神经网络描述

图像
激活函数用于训练是乙状结肠函数。阈值设置和偏见基于试验和错误。示例规则生成的决策树如下:
规则1:如果年龄年龄和性别是女性和胆固醇高然后tvdlm是肯定的
规则2:如果年龄很年轻,性别女,Sigdz正常然后tvdlm是否定的
规则3:如果年龄年龄和性别是男性和胆固醇高然后tvdlm是肯定的
心脏病数据集的统计分析如表2所示。这个表给出了最小值、最大值、平均值和标准偏差的所有属性。生成的输出的统计图是图3所示。
图4所示。接受者操作特征(ROC)曲线显示了建议的工作。图形绘制,说明二元分类器系统的性能作为其歧视阈值是不同的。曲线是由显示的是真阳性和假阳性率在不同的阈值设置。

结论

我们研究的问题约束和总结不同的数据挖掘算法。我们专注于使用不同的算法来预测若干目标属性的组合。在本文中,我们提出了一个智能和心脏病有效预测使用数据挖掘的方法。在我们未来的工作,这可以进一步提高和扩展。显著预测心脏病15属性列出。除了医学文献中列出的15我们也可以包含其他数据挖掘技术,例如,时间序列聚类和关联规则。

表乍一看

表的图标 表的图标
表1 表2

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4

引用