所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

心脏病预测数据集预处理的实用方法

世卫组织博士Durairaj说。米,Sivagowry。年代
  1. 印度巴拉提达桑大学计算机科学、工程与技术系助理教授。
  2. 印度巴拉提达桑大学计算机科学、工程与技术系研究学者。
通讯作者:SHARMA VIVEK,电子邮件:(电子邮件保护)
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

医疗生态系统源于丰富的信息数据库,但缺乏从数据库中提取信息的技术。这是因为缺乏有效的分析工具来发现其中隐藏的关系和趋势。通过应用数据挖掘技术,可以从医疗保健系统中提取有价值的知识。提取的知识可以应用于疾病的准确诊断和正确治疗。心脏病是一组影响心脏结构和功能的疾病,有许多根本原因。在过去的十年里,心脏病是全世界死亡的主要原因。研究人员已经开发了许多用于诊断心脏病的混合数据挖掘技术。本文介绍了一种预处理技术,并分析了预处理后的预测精度。经过预处理后,准确率提高到91%。群体智慧未来将采用与粗糙集算法相结合的技术对相关特征进行精确约简,用于预测。

关键字

数据挖掘,人工神经网络,多层感知器,径向基函数,均方根误差,预测精度,冗余特征

介绍

数据挖掘是对大型数据集的探索,以提取隐藏的和以前未知的模式、关系和知识,这些模式、关系和知识难以用传统统计方法检测。数据挖掘技术是长期研究和产品开发的结果。数据挖掘涉及从原始数据收集到某种形式的新知识的几个步骤。迭代过程包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表示等步骤。从图1可以看出,数据挖掘是知识发现过程所涉及的各个过程的核心。知识发现是一个从低级数据中获取高级知识的过程。
医疗数据挖掘是一个充满挑战的领域,涉及很多不精确性和不确定性。以可承受的成本提供优质服务是卫生保健组织面临的主要挑战。糟糕的临床决策可能导致灾难性的后果。医疗保健数据非常庞大。临床决策往往基于医生的经验,而不是隐藏在数据库中的知识丰富的数据。在某些情况下,这会导致错误和过高的医疗费用,从而影响对患者的服务质量。病史数据包括一些诊断特定疾病的必要检查。通过将数据挖掘[21],[25],[26]作为智能诊断工具[34],有可能在医疗保健中获得优势。使用数据聚类算法[4]也可以提高预测的准确性。医学领域的研究人员在数据挖掘技术[29]的帮助下成功地识别和预测疾病。 Association rules of Data Mining have been significantly used [7], [11], and [12].
本文组织结构如下:第二部分介绍了心脏病及其对社会的影响。第三部分是关于为实验收集的数据集。第四节描述了使用多层感知器网络和径向基函数对数据集进行预处理和训练的技术。第五节对全文进行了总结。

心脏病

医疗费用的上涨是世界上最重要的问题之一。当血液流动不规律,心肌因供氧不足而受损时,就会发生心脏病。世界卫生组织在2008年报告说,全球总死亡人数的30%是由心血管疾病(CVD)引起的。到2030年,近2500万人将死于心血管疾病,主要死于心脏病和中风[10],[14],[49]。预计这些疾病仍将是死亡的唯一主要原因。由于生活方式、工作文化和饮食习惯的改变,心血管疾病预计将成为发展中国家的主要死亡原因。因此,更仔细有效的心脏疾病方法和定期检查是非常重要的[27],[28]。

相关工作

遗传算法[1],[16]用于确定心脏病诊断的属性。利用遗传算法进行特征提取。使用GA将属性数减少到6个。Naïve Bayes[35],聚类分类和决策树,是用于测试约简数据集的分类器。可以观察到,决策树的性能更好,但需要更多的时间来构建模型。Naïve Bayes在属性约简前后的表现是一致的。通过聚类进行分类的性能较差。采用Weka工具进行评价。
提出了基于加权模糊规则的临床决策支持系统[2],[13]。它由两个阶段组成。第一阶段是模糊规则的自动生成,第二阶段是基于决策支持系统的模糊规则的开发。在灵敏度、特异性和准确度等方面与基于神经网络的CDSS系统进行了比较。使用克利夫兰、匈牙利和瑞士数据集。神经网络和CDSS的灵敏度分别为52.47%和45.22%,特异性分别为52.46%和68.75%,准确率分别为53.86%和57.85%。
数据挖掘分类[3],[9]是基于监督机器学习算法。使用Tanagra工具对数据进行分类,并使用10倍交叉验证进行评估。采用Naïve Bayes, K-nn [32], Decision List Algorithm,并根据精度和建立模型所花费的时间来分析这些算法的性能。Naïve bayes被认为是更好的,因为它只需要比其他算法更少的时间来计算精度。它还导致了更低的错误率。Naïve Bayes算法的准确率为52.23%。
智能心脏病预测系统(IHDPS)[25]采用决策树、Naïve贝叶斯和神经网络等数据挖掘技术开发。每种技术在实现数据挖掘目标方面都有自己的优势。DMX查询语言用于回答复杂的“如果”查询,而决策支持系统不能。使用这三个模型定义和评估了五个数据挖掘规则。Naïve bayes[26],[16]被认为是诊断心脏病最有效的方法。
错误分类分析[41]用于数据清洗。利用互补神经网络来提高网络分类器的性能。使用了两种技术。假神经网络是通过补充训练数据的目标输出来获得的。True NN和False NN被训练为隶属度值。在第一种技术中,通过消除所有错误分类模式来获得新的训练数据。而在第二种技术中,只消除了错误分类模式。数据清洗后,分类精度提高。第二种方法比第一种方法更准确。
比较了Ripper增量剪枝算法[19]、[20]、支持向量机(SVM)、决策树和人工神经网络。从灵敏度、特异性、准确率、错误率、真阳性率、假阳性率等方面对各算法进行了性能比较。SVM预测错误率最小,准确率最高。
SubhagataChattopadhyay[48]挖掘了心脏病发作的一些重要诱发因素。我们选取了300个真实案例进行研究。有12个因素。分裂层次聚类(DHC)技术已被用于将样本聚类为“单一”、“平均”和“完整”链接。据观察,48-60岁的男性易患严重和中度心脏病,而50岁以上的女性则多为轻度心脏病。

数据集

用于实验的数据集从加州大学欧文分校(UCI)的数据挖掘存储库中保留。收集了克利夫兰数据集、匈牙利数据集、瑞士数据集、长滩数据集和Statlog数据集。克利夫兰、匈牙利、瑞士和弗吉尼亚长滩数据集包含76个属性。在76个属性中,选取了14个属性进行实验。Cleveland数据集和Statlog数据集是医学领域研究人员最常用的测试数据集。这是因为所有其他数据集都比克利夫兰数据集[46]有更多的缺失值。
A.使用的属性
表1显示了用于心脏病预测的属性。
为挖掘而收集的数据集将包含数字属性或名义属性。为心脏病收集的数据集包括数字属性和名义属性。在上述14个属性中,列出的特征如年龄、trestbps、Chol、thalach和oldpeak是数字属性,其余9个属于名义属性。各变量在预测心脏病方面的相对重要性见图2。

提出工作

建议的预处理工作方法如下:
a.作为初步阶段,使用NumerictoNominal和Replace Missing Value技术对数据集进行预处理。
b.清洗后,对数据集进行准确性训练。
c.下一步是提取冗余特征进行预测。
d.这是通过使用混合粗糙集算法的群体智能技术来实现的。
e.对数据集进行验证,获得用于预测的最优Redunt特征。图3描述了建议的工作方法。

对数据集进行预处理和训练

人工神经网络是受生物神经网络[8],[23]和[24]启发的数学模型。神经网络由一组相互连接的人工神经元组成,它使用连接主义方法处理信息来计算[10]。神经网络被认为是一种在学习阶段[6]中改变其结构的自适应系统。神经网络用于模拟输入和输出之间的复杂关系,或在数据中寻找模式。调整互连的权重以产生所需的输出[38]。
多层感知器(Multilayer Perceptron, MLP)是一种基于监督学习方法的神经网络,采用反向传播算法[15]进行训练。反向传播算法是目前应用最广泛的神经网络算法。前馈神经网络或多层感知器是研究最广泛的分类网络算法,emlp使用非线性激活函数。隐藏的神经元使网络活跃于高度复杂的任务[30],[31]。
图4给出了MLP网络的体系结构。感知器网络最重要的特征之一是隐藏层中的神经元数量。如果使用的神经元数量不足,网络将无法对复杂的数据建模,结果的拟合将很差。如果使用太多的神经元,训练时间可能会变得过长,更糟糕的是,网络可能会过度拟合数据。当过度拟合发生时,网络将开始对数据中的随机噪声建模。结果是,该模型非常适合训练数据,但它不适用于新的、未见过的数据。必须使用验证来对此进行测试。
径向基函数网络是一种以径向基函数作为激活函数的神经网络。径向基函数(RBF)网络通常有三层:输入层、带有非线性RBF激活函数的隐藏层和线性输出层。输入可以被建模为实数向量图像网络的输出是输入向量的标量函数,图像并且由
图像
其中N是隐藏层中的神经元数量,c为神经元I的中心向量,ai为神经元I在线性输出神经元中的权值。仅依赖于到中心向量的距离的函数与该向量基本对称,因此称为径向基函数。在基本形式中,所有输入都连接到每个隐藏的神经元。
图5显示了径向基函数网络的体系结构。RBF的主要特点是它们是两层前馈网络。隐藏节点实现了一组径向基函数。输出节点实现了MLP中的一组线性求和函数。网络培训分为两个阶段。在第一阶段,确定从输入到隐藏层的权重。在第二阶段,从隐藏层到输出层的权重被确定。网络非常擅长插值。
数据预处理[45]在数据挖掘中有着重要的作用。如果数据中包含不相关或冗余的信息或更多的噪声和不可靠的数据,知识发现中的数据挖掘的训练阶段将非常困难。医疗数据包含许多缺失的值。因此预处理是医学数据训练前的必经环节。预处理前总共训练了303个实例。
在对数据进行预处理之前,表2比较了MLP和RBF的性能。计算得到的RMSE值。这表明RMSE和相关系数值要低得多。相关系数是预测值与实际值之间统计相关性的度量。如果相关系数为1,这是一个完美的统计相关,如果它是0,没有相关性。RBF的相关值更接近于0。因此,用MLP训练网络会比RBF得到更好的结果。表2比较了这两个网络在相关性、平均绝对误差、RMSE、RAE和根相对平方误差方面的性能。
心脏病数据集有数值数据集和名义数据集。预处理的主要步骤是将数值属性转换为名义属性。NumerictoNominal转换用于将属性更新为Nominal。表1显示了预处理数据集之前的结果。在预处理之前,数据集没有疾病是否存在的分类。num属性只描述输出。但是在将数字属性转换为名义属性之后,就很容易分析疾病的存在和不存在。因此,属性的名义转换是一种有效的预处理技术。预处理后对MLP网络和RBF网络进行训练。所取得的结果也很有希望。
数据再次通过使用MLP和RBF进行分类。计算了两种情况下的预测精度。结果表明,MLP在精度上优于RBF。MLP的Kappa统计值较高。如果Kappa统计值为0.7或大于0.7,则表示具有良好的统计相关性。在Kappa值较高的情况下,二者的相关性更好。表3比较了将数字属性转换为名义属性后这两个网络的性能。
从表3可以推断,MLP和RBF的性能都更好。但在精度和相对绝对误差方面,MLP优于径向基函数网络。我们还观察到,预处理后的数据集RAE值更好。替换缺失值是分析中使用的另一种预处理技术。替换值后,再次训练网络来评估其性能。多层感知器网络性能优于径向基函数网络。从下面的数字可以看出。

结论

心脏病预测是医疗保健行业的主要挑战。在不影响诊断准确性的情况下选择较少的属性是数据挖掘中一个具有挑战性的任务。去除和修正所有的噪声数据,并从医疗数据中提取信息将在许多方面帮助医疗从业者。除了去除噪声数据外,特征提取是心血管疾病预测的重要任务。实验结果表明,对数据的预处理效果良好。数据预处理提高了诊断和预测的准确率,可达91%左右。与RBF相比,MLP网络具有较高的预测精度和较低的误差率。提取相关特征并对网络进行适当的训练,将使诊断更有希望。未来的研究方向是提取相关的Redunt特征,进一步提高预测精度。

表格一览

表的图标 表的图标 表的图标
表1 表2 表3

数字一览

图1 图2 图3 图4
图1 图2 图3 图4
图1 图2 图3
图5 图6 图7

参考文献



















































全球科技峰会