所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

务实的方法预处理心脏疾病预测的数据集

世卫组织博士Durairaj说。米,Sivagowry.S
  1. 助理教授,计算机科学,工程和技术、Bharathidasan大学、印度。
  2. 研究学者、计算机科学、工程和技术,Bharathidasan大学、印度。
通讯作者:SHARMA VIVEK,电子邮件:(电子邮件保护)
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

医疗系统是源于丰富的信息数据库,但是不从数据库中提取信息的技术。这是因为缺乏有效的分析工具,发现隐藏的关系和趋势。通过应用数据挖掘技术,可以从卫生保健系统中提取有价值的知识。提取的知识可以应用于疾病的准确诊断和适当的治疗。心脏疾病是一组条件影响心脏的结构和功能,有许多根源。心脏病是死亡的主要原因在全世界在过去十年。研究人员已经开发出许多混合的数据挖掘技术诊断心脏疾病。介绍了预处理技术和分析预处理后的预测准确性嘈杂的数据。它也观察到,预处理后的准确性已增至91%。群体智慧技术与粗糙集算法混合,作为未来工作的减少相关特性的预测。

关键字

数据挖掘、人工神经网络、多层感知器,径向基函数,根均方误差,预测准确性,Redunt特性

介绍

数据挖掘是探索大型数据集提取隐藏的和未知的模式,和知识的关系很难检测与传统统计[17]。数据挖掘技术是一个漫长的过程的结果的研究和产品开发[5]。数据挖掘涉及几个步骤从原始数据收集到某种形式的新知识。迭代过程包含以下步骤数据清理、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表示。图1表明,数据挖掘是所涉及的各种流程的核心知识发现过程。知识发现是一个过程从低水平的高水平知识数据[38]。
医学数据挖掘是一个领域的挑战涉及大量的不精确和不确定性。提供优质的服务以可承受的成本是在卫生保健组织面临的主要挑战。可怜的临床决策可能会导致灾难性的后果。卫生保健数据是巨大的。临床决策往往是根据医生的经验而不是知识丰富的数据隐藏在数据库中。这在某些情况下导致的错误,过度医疗成本,影响服务质量的病人[33]。医学历史数据组成的测试要点来诊断一个特定的疾病。数据挖掘可以获得的优势[21],[25],[26]在卫生保健采用它作为一个智能诊断工具[34]。预测的准确性也会提高了使用数据聚类算法[4]。医学领域的研究人员已经成功地识别和预测疾病的帮助下的数据挖掘技术[29]。 Association rules of Data Mining have been significantly used [7], [11], and [12].
本文的组织结构如下:第二部分给出了描述关于心脏病及其对社会的影响。第三部分是对收集到的数据集实验。第四部分描述了数据的预处理技术和培训组使用多层感知器网络和径向基函数。第五部分是结论。

心脏病

riseof医疗成本是世界上最重要的问题之一[21]。时会发生心脏病有不规则流动的血液和心脏肌肉受伤,因为氧气供应不足[47]。世界卫生组织2008年的报告称,全球总死亡人数的30%是由于心血管疾病(CVD)。到2030年,近2500万人将死于心血管病,主要来自心脏病和中风[10],[14],[49]。预计它们将继续成为一个死亡的主要原因。CVD预计将在发展中国家导致死亡的主要原因,由于生活方式的变化,工作文化和饮食习惯。因此,更加谨慎和心脏疾病和定期检查的有效方法,重要性高[27],[28]。

相关工作

遗传算法[1],[16]是用来确定心脏病的诊断的属性。特征提取是借助遗传算法(GA)。属性使用GA数减少到6。朴素贝叶斯[35],分类聚类、决策树分类器,用于测试数据集。观察到决策树优于但是需要更多的时间来建立模型。朴素贝叶斯的表现持续减少前后属性。通过聚类分类性能很差。Weka工具是用于评估。
基于加权模糊规则的临床决策支持系统(CDSS)提出了[2],[13]。它由两个阶段组成。第一阶段是自动化方法生成模糊规则,另一种是开发一个基于决策支持系统的模糊规则。信用违约互换是与基于神经网络的系统灵敏度相比,特异性和准确性。克利夫兰、匈牙利和瑞士使用的数据集。神经网络(NN)和信用违约掉期的敏感性是52.47%和45.22%,特异性为52.46%和68.75%,准确性为53.86%和57.85%。
数据挖掘分类[3],[9]是基于监督机器学习算法。塔纳格拉工具是用于分类数据使用10折交叉验证和评估。朴素贝叶斯、事例[32],决策列表算法,这些算法的性能进行了分析的基础上构建的模型准确性和时间。朴素贝叶斯被认为是更好的,因为它只需要较少的时间比其他算法计算精度。这也导致了较低的错误率。朴素贝叶斯算法给出了52.23%的准确结果。
智能心脏病预测系统(IHDPS)[25]是使用数据挖掘技术开发即决策树、朴素贝叶斯和神经网络。每种技术都有自己的力量实现数据挖掘的目标。DMX查询语言使用的答案复杂的“如果”,决策支持系统无法查询。五个数据挖掘规则定义和评估使用的三个模型。朴素贝叶斯[26],[16]发现心脏病最有效的诊断。
误分类分析[41]用于数据清洗。补充神经网络用于提高网络分类器的性能。使用两种技术。虚伪神经网络是通过补充目标训练数据的输出。真NN和假神经网络训练成员的值。在第一种技术,新的训练数据得到通过消除所有错误分类模式。和在第二技术,只有消除了误分类模式。数据清理后的提高分类精度。技术二显示精度比技术。
开膛手增量减少修剪产生错误(开膛手)[19],[20],决策树支持向量机(SVM)和人工神经网络进行了比较。相互比较算法的性能基于敏感性、特异性、准确性、错误率,真阳性和假阳性。支持向量机预测错误率最小,精度最高。
SubhagataChattopadhyay[48]中发掘出一些重要的预处理心脏病发作的因素。现实世界300年病例进行研究。12个因素。分裂的层次聚类(DHC)技术已经被用于集群的样本作为“单一”,“平均”和“完成”链接。它也已经观察到男性随着年龄群48-60容易遭受严重的心脏病和温和,50多年,女性大多有轻微影响的攻击。

数据集

用于实验的数据集是保留从数据挖掘库的加州大学欧文(UCI)。匈牙利来自克利夫兰的数据集的数据集,数据集,瑞士数据集、长滩和Statlog收集数据集。克利夫兰、匈牙利、瑞士和Va长滩数据集包含了76个属性。在所有的76属性,14属性被用于实验。克利夫兰数据集和Statlog数据集是最常用的数据集用于测试目的的研究人员在医学领域。这是因为所有其他数据集缺失值的数量比克利夫兰数据集[46]。
答:使用属性
表1显示了属性用于心脏疾病预测的目的。
收集的数据集对矿业将包含数值属性或名义上的属性。心脏病的收集的数据集包含数字和名义上的属性。14属性,从上面列出的特性,比如年龄、trestbps,胆固醇,thalach和oldpeak数值属性和名义下剩余9。变量的相对重要性在预测心脏病是图2所示。

提出工作

拟议的预处理工作方法如下:
。作为一个初步阶段,数据集预处理通过NumerictoNominal和替换缺失值技术。
b。清洗后,准确性的训练数据集。
c。下一阶段是预测冗余特征的提取。
d。这是影响使用混合的群体智能技术与粗糙集算法。
e。验证了数据集获取最优Redunt功能预测。图3描述了拟议的工作方法。

数据集预处理和培训

人工神经网络是一种受生物神经网络数学模型[8],[23],[24]。神经网络由一组相互关联的人工神经元,它使用联结主义方法处理信息计算[10]。一个神经网络被认为是一种自适应系统,改变其结构在其学习阶段[6]。神经网络用于模型的输入和输出之间的复杂关系或发现数据中的模式。调整权重的连接产生所需的输出[38]。
多层感知器(MLP)是一个基于监督学习的神经网络方法和网络是由使用反向传播算法训练[15]。反向传播算法是应用最广泛的神经网络算法。前馈神经网络或多层感知器是研究最广泛的网络算法分类purposeMLP使用非线性激活函数。隐藏的神经元使高度复杂的网络活跃任务[30],[31]。
图4给出了架构的MLP网络。感知器网络的最重要的一个特点是隐层神经元的数目(年代)。如果使用的神经元数量不足,网络将无法模型复杂的数据,以及由此产生的配合将会贫穷。如果使用太多的神经元,培训时间会太长,更糟糕的是,网络可能overfit数据。在配件发生时,网络将开始模型中的随机噪声数据。结果是,模型与训练数据的吻合的非常好,但是它概括不新,看不见的数据。必须使用验证测试。
径向基函数网络是一个安工作的基于径向基函数作为激活函数。径向基函数(RBF)网络通常有三层:输入层、隐藏层非线性RBF激活函数和线性输出层。输入可以建模为一个向量的实数图像网络的输出是一个标量函数的输入向量,图像,是由
图像
其中N是隐层神经元的数目,c是神经元的中心向量I,人工智能是神经元的重量我在线性输出神经元。函数,只取决于一个中心向量的距离向量是完全对称的,因此径向基函数的名称。基本形式的所有输入连接到每个隐藏的神经元。
图5显示了径向基函数网络的体系结构。RBF的主要特征是它们是两个多层前馈网络。隐藏节点实现了一组径向基函数。输出节点实现了一组线性求和函数延时。网络培训分为两个阶段。在第一阶段,从隐藏的输入层重量决定。在第二阶段,体重从隐藏到输出层。网络是很好的插值。
数据预处理[45]在数据挖掘中起着重要的作用。数据挖掘在知识发现中的培训阶段将是非常困难的,如果数据包含无关的冗余信息或更多的嘈杂和不可靠的数据。医疗数据包含许多缺失值。所以预处理是一个必须的步骤之前培训的医疗数据。共有303个实例训练前预处理。
表2比较延时和RBF预处理前的性能数据。评估获得的RMSE值。发起,RMSE和相关系数值要低得多。相关系数是衡量统计预测与实际值之间的相关性。如果相关系数为1,这是一个完美的统计相关性和没有相关性,如果它是0。RBF的相关值接近于0。因此,训练一个比RBF MLP网络产生更好的结果。表2比较了性能的网络相关,平均绝对误差,RMSE,雷和根相对平方误差。
心脏病的数据集数字和名义数据集。预处理的主要步骤包括名义属性数值属性的转换。NumerictoNominal转换用于翻新与名义上的属性。表1显示了结果前预处理之前进行预处理的数据集。等分类数据集没有缺席或疾病的存在。num属性只描述了输出。但在将数值属性转换为名义,的存在和缺乏疾病很容易分析。所以名义转换属性是发现一个有效的预处理技术。预处理后的延时和RBF网络训练。获得的结果也有不错的效果。
数据再次受到使用延时和RBF分类。在的情况下预测精度计算。它见证了简要优于RBF的准确性。在延时Kappa统计值更高。如果Kappa统计值比0.7 0.7或更高版本,那么良好的统计相关性。发现更好的相关性高的k值。表3比较了转换后的网络性能数值属性的名义。
从表3,它是被推断出来的延时和RBF表现的更好。但延时精度优于径向基函数网络和相对的绝对误差。也观察到RAE值更好的预处理后的数据集。代替缺失值是另一个预处理技术用于分析。再次取代价值后,网络训练来评价其性能。多层感知器网络优于径向基函数网络。从下图显示。

结论

心脏病医疗保健行业的预测是一个重大的挑战。选择更少数量的属性,而不会影响诊断的准确性在数据挖掘是一项具有挑战性的任务。删除并纠正所有的数据和从医疗数据中提取信息将有助于医疗从业者在许多方面。除了消除噪声数据,特征提取是一个重要的心血管疾病的预测任务。从实验观测数据的预处理收益率有前景的结果。数据的预处理提高了诊断和预测准确性和近91%。向MLP网络预测具有较高的精度和较低的错误率与RBF相比。提取网络的有关特性和适当的培训将导致更有前途的诊断。研究的未来方向的提取相关Redunt功能,将进一步提高预测精度。

表乍一看

表的图标 表的图标 表的图标
表1 表2 表3

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4
图1 图2 图3
图5 图6 图7

引用



















































全球技术峰会