关键字 |
数据挖掘,人工神经网络,多层感知器,径向基函数,均方根误差,预测精度,冗余特征 |
介绍 |
数据挖掘是对大型数据集的探索,以提取隐藏的和以前未知的模式、关系和知识,这些模式、关系和知识难以用传统统计方法检测。数据挖掘技术是长期研究和产品开发的结果。数据挖掘涉及从原始数据收集到某种形式的新知识的几个步骤。迭代过程包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表示等步骤。从图1可以看出,数据挖掘是知识发现过程所涉及的各个过程的核心。知识发现是一个从低级数据中获取高级知识的过程。 |
医疗数据挖掘是一个充满挑战的领域,涉及很多不精确性和不确定性。以可承受的成本提供优质服务是卫生保健组织面临的主要挑战。糟糕的临床决策可能导致灾难性的后果。医疗保健数据非常庞大。临床决策往往基于医生的经验,而不是隐藏在数据库中的知识丰富的数据。在某些情况下,这会导致错误和过高的医疗费用,从而影响对患者的服务质量。病史数据包括一些诊断特定疾病的必要检查。通过将数据挖掘[21],[25],[26]作为智能诊断工具[34],有可能在医疗保健中获得优势。使用数据聚类算法[4]也可以提高预测的准确性。医学领域的研究人员在数据挖掘技术[29]的帮助下成功地识别和预测疾病。 Association rules of Data Mining have been significantly used [7], [11], and [12]. |
本文组织结构如下:第二部分介绍了心脏病及其对社会的影响。第三部分是关于为实验收集的数据集。第四节描述了使用多层感知器网络和径向基函数对数据集进行预处理和训练的技术。第五节对全文进行了总结。 |
心脏病 |
医疗费用的上涨是世界上最重要的问题之一。当血液流动不规律,心肌因供氧不足而受损时,就会发生心脏病。世界卫生组织在2008年报告说,全球总死亡人数的30%是由心血管疾病(CVD)引起的。到2030年,近2500万人将死于心血管疾病,主要死于心脏病和中风[10],[14],[49]。预计这些疾病仍将是死亡的唯一主要原因。由于生活方式、工作文化和饮食习惯的改变,心血管疾病预计将成为发展中国家的主要死亡原因。因此,更仔细有效的心脏疾病方法和定期检查是非常重要的[27],[28]。 |
相关工作 |
遗传算法[1],[16]用于确定心脏病诊断的属性。利用遗传算法进行特征提取。使用GA将属性数减少到6个。Naïve Bayes[35],聚类分类和决策树,是用于测试约简数据集的分类器。可以观察到,决策树的性能更好,但需要更多的时间来构建模型。Naïve Bayes在属性约简前后的表现是一致的。通过聚类进行分类的性能较差。采用Weka工具进行评价。 |
提出了基于加权模糊规则的临床决策支持系统[2],[13]。它由两个阶段组成。第一阶段是模糊规则的自动生成,第二阶段是基于决策支持系统的模糊规则的开发。在灵敏度、特异性和准确度等方面与基于神经网络的CDSS系统进行了比较。使用克利夫兰、匈牙利和瑞士数据集。神经网络和CDSS的灵敏度分别为52.47%和45.22%,特异性分别为52.46%和68.75%,准确率分别为53.86%和57.85%。 |
数据挖掘分类[3],[9]是基于监督机器学习算法。使用Tanagra工具对数据进行分类,并使用10倍交叉验证进行评估。采用Naïve Bayes, K-nn [32], Decision List Algorithm,并根据精度和建立模型所花费的时间来分析这些算法的性能。Naïve bayes被认为是更好的,因为它只需要比其他算法更少的时间来计算精度。它还导致了更低的错误率。Naïve Bayes算法的准确率为52.23%。 |
智能心脏病预测系统(IHDPS)[25]采用决策树、Naïve贝叶斯和神经网络等数据挖掘技术开发。每种技术在实现数据挖掘目标方面都有自己的优势。DMX查询语言用于回答复杂的“如果”查询,而决策支持系统不能。使用这三个模型定义和评估了五个数据挖掘规则。Naïve bayes[26],[16]被认为是诊断心脏病最有效的方法。 |
错误分类分析[41]用于数据清洗。利用互补神经网络来提高网络分类器的性能。使用了两种技术。假神经网络是通过补充训练数据的目标输出来获得的。True NN和False NN被训练为隶属度值。在第一种技术中,通过消除所有错误分类模式来获得新的训练数据。而在第二种技术中,只消除了错误分类模式。数据清洗后,分类精度提高。第二种方法比第一种方法更准确。 |
比较了Ripper增量剪枝算法[19]、[20]、支持向量机(SVM)、决策树和人工神经网络。从灵敏度、特异性、准确率、错误率、真阳性率、假阳性率等方面对各算法进行了性能比较。SVM预测错误率最小,准确率最高。 |
SubhagataChattopadhyay[48]挖掘了心脏病发作的一些重要诱发因素。我们选取了300个真实案例进行研究。有12个因素。分裂层次聚类(DHC)技术已被用于将样本聚类为“单一”、“平均”和“完整”链接。据观察,48-60岁的男性易患严重和中度心脏病,而50岁以上的女性则多为轻度心脏病。 |
数据集 |
用于实验的数据集从加州大学欧文分校(UCI)的数据挖掘存储库中保留。收集了克利夫兰数据集、匈牙利数据集、瑞士数据集、长滩数据集和Statlog数据集。克利夫兰、匈牙利、瑞士和弗吉尼亚长滩数据集包含76个属性。在76个属性中,选取了14个属性进行实验。Cleveland数据集和Statlog数据集是医学领域研究人员最常用的测试数据集。这是因为所有其他数据集都比克利夫兰数据集[46]有更多的缺失值。 |
A.使用的属性 |
表1显示了用于心脏病预测的属性。 |
为挖掘而收集的数据集将包含数字属性或名义属性。为心脏病收集的数据集包括数字属性和名义属性。在上述14个属性中,列出的特征如年龄、trestbps、Chol、thalach和oldpeak是数字属性,其余9个属于名义属性。各变量在预测心脏病方面的相对重要性见图2。 |
提出工作 |
建议的预处理工作方法如下: |
a.作为初步阶段,使用NumerictoNominal和Replace Missing Value技术对数据集进行预处理。 |
b.清洗后,对数据集进行准确性训练。 |
c.下一步是提取冗余特征进行预测。 |
d.这是通过使用混合粗糙集算法的群体智能技术来实现的。 |
e.对数据集进行验证,获得用于预测的最优Redunt特征。图3描述了建议的工作方法。 |
对数据集进行预处理和训练 |
人工神经网络是受生物神经网络[8],[23]和[24]启发的数学模型。神经网络由一组相互连接的人工神经元组成,它使用连接主义方法处理信息来计算[10]。神经网络被认为是一种在学习阶段[6]中改变其结构的自适应系统。神经网络用于模拟输入和输出之间的复杂关系,或在数据中寻找模式。调整互连的权重以产生所需的输出[38]。 |
多层感知器(Multilayer Perceptron, MLP)是一种基于监督学习方法的神经网络,采用反向传播算法[15]进行训练。反向传播算法是目前应用最广泛的神经网络算法。前馈神经网络或多层感知器是研究最广泛的分类网络算法,emlp使用非线性激活函数。隐藏的神经元使网络活跃于高度复杂的任务[30],[31]。 |
图4给出了MLP网络的体系结构。感知器网络最重要的特征之一是隐藏层中的神经元数量。如果使用的神经元数量不足,网络将无法对复杂的数据建模,结果的拟合将很差。如果使用太多的神经元,训练时间可能会变得过长,更糟糕的是,网络可能会过度拟合数据。当过度拟合发生时,网络将开始对数据中的随机噪声建模。结果是,该模型非常适合训练数据,但它不适用于新的、未见过的数据。必须使用验证来对此进行测试。 |
径向基函数网络是一种以径向基函数作为激活函数的神经网络。径向基函数(RBF)网络通常有三层:输入层、带有非线性RBF激活函数的隐藏层和线性输出层。输入可以被建模为实数向量网络的输出是输入向量的标量函数,并且由 |
|
其中N是隐藏层中的神经元数量,c我为神经元I的中心向量,ai为神经元I在线性输出神经元中的权值。仅依赖于到中心向量的距离的函数与该向量基本对称,因此称为径向基函数。在基本形式中,所有输入都连接到每个隐藏的神经元。 |
图5显示了径向基函数网络的体系结构。RBF的主要特点是它们是两层前馈网络。隐藏节点实现了一组径向基函数。输出节点实现了MLP中的一组线性求和函数。网络培训分为两个阶段。在第一阶段,确定从输入到隐藏层的权重。在第二阶段,从隐藏层到输出层的权重被确定。网络非常擅长插值。 |
数据预处理[45]在数据挖掘中有着重要的作用。如果数据中包含不相关或冗余的信息或更多的噪声和不可靠的数据,知识发现中的数据挖掘的训练阶段将非常困难。医疗数据包含许多缺失的值。因此预处理是医学数据训练前的必经环节。预处理前总共训练了303个实例。 |
在对数据进行预处理之前,表2比较了MLP和RBF的性能。计算得到的RMSE值。这表明RMSE和相关系数值要低得多。相关系数是预测值与实际值之间统计相关性的度量。如果相关系数为1,这是一个完美的统计相关,如果它是0,没有相关性。RBF的相关值更接近于0。因此,用MLP训练网络会比RBF得到更好的结果。表2比较了这两个网络在相关性、平均绝对误差、RMSE、RAE和根相对平方误差方面的性能。 |
心脏病数据集有数值数据集和名义数据集。预处理的主要步骤是将数值属性转换为名义属性。NumerictoNominal转换用于将属性更新为Nominal。表1显示了预处理数据集之前的结果。在预处理之前,数据集没有疾病是否存在的分类。num属性只描述输出。但是在将数字属性转换为名义属性之后,就很容易分析疾病的存在和不存在。因此,属性的名义转换是一种有效的预处理技术。预处理后对MLP网络和RBF网络进行训练。所取得的结果也很有希望。 |
数据再次通过使用MLP和RBF进行分类。计算了两种情况下的预测精度。结果表明,MLP在精度上优于RBF。MLP的Kappa统计值较高。如果Kappa统计值为0.7或大于0.7,则表示具有良好的统计相关性。在Kappa值较高的情况下,二者的相关性更好。表3比较了将数字属性转换为名义属性后这两个网络的性能。 |
从表3可以推断,MLP和RBF的性能都更好。但在精度和相对绝对误差方面,MLP优于径向基函数网络。我们还观察到,预处理后的数据集RAE值更好。替换缺失值是分析中使用的另一种预处理技术。替换值后,再次训练网络来评估其性能。多层感知器网络性能优于径向基函数网络。从下面的数字可以看出。 |
结论 |
心脏病预测是医疗保健行业的主要挑战。在不影响诊断准确性的情况下选择较少的属性是数据挖掘中一个具有挑战性的任务。去除和修正所有的噪声数据,并从医疗数据中提取信息将在许多方面帮助医疗从业者。除了去除噪声数据外,特征提取是心血管疾病预测的重要任务。实验结果表明,对数据的预处理效果良好。数据预处理提高了诊断和预测的准确率,可达91%左右。与RBF相比,MLP网络具有较高的预测精度和较低的误差率。提取相关特征并对网络进行适当的训练,将使诊断更有希望。未来的研究方向是提取相关的Redunt特征,进一步提高预测精度。 |
|
表格一览 |
|
|
数字一览 |
|
|
|
参考文献 |
- Anbarasi。王晓明,王晓明,王晓明,“基于遗传算法的心脏疾病预测方法研究”,中国生物医学工程学报,第2卷,第1期,pp 566 - 566, 2010。
- “临床决策支持系统:使用数据挖掘算法预测心脏病的风险水平”,沙特国王杂志
- 大学-计算机与信息科学,pp 27-40,2012。
- AshaRajkumar和Mrs. Sophia Reena,“基于数据挖掘算法的心脏病诊断”,全球计算机科学与技术杂志,vol. 10(10), pp 38- 43,2010。
- “数据聚类算法在心脏预测中的应用”,中国生物医学工程学报,Vol 48(7), pp 8-13, 2012年6月。
- BhagyashreeAmbulkar和VaishaliBorkar“云计算中的数据挖掘”,MPGINMC,最近的计算趋势,ISSN 0975-8887, pp 23- 26,2012年6月。
- Bhuvaneswari。R,“Naïve贝叶斯分类方法在医疗保健中的应用”,《国际计算机科学与通信杂志》,第3卷(1),pp 106-112, 2012年1月。
- Carlos Ordonez, Edward omincski和Levien de Braal“预测心脏病的挖掘约束关联规则”,2001年IEEE数据挖掘国际会议论文集,IEEE计算机学会,ISBN-0-7695-1119-8, pp: 433-440,2001。
- Cengizcolak。陈志强,陈志强,“基于人工神经网络模型的冠状动脉疾病预测”,《计算机辅助设计与人工神经网络》,2008年第4期。
- “基于数据挖掘分类技术的心脏疾病预测系统的改进研究”,中华医学会医学杂志,第47卷,pp 44-48, 2012年6月。
- 陈爱华,“HDPS技术在心脏病预测中的应用”,《中国心脏病杂志》,2011年第1期,pp 557- 566。
- 迪。[j] .“心衰患者的分类方法研究”,中华心衰医学杂志,Vol 11(2), pp 253-257, 2011。
- Durairaj。M和Meena。K“基于粗糙集和人工神经网络的混合预测系统”,《创新技术与工程学报》2011年7月第1卷第7期。
- Myocardia_infraction: en.wikipedia.org/wiki/myocardial_infarction。
- UCI机器学习知识库:http://archive.ics.uci.edu/ml/datasets/Heart+Disease:最后访问2014年3月18日
- 人工神经网络:http://en.wikipedia.org/wiki/Artificial-neural-network
- DTREG预测建模软件:http://www.dtreg.com/mlfn.htm
- “基于关联规则挖掘的心脏病预测知识发现方法”,中华医学杂志,Vol 41(2), pp 166-174, 2012。
- JyothiSoni, Uzmaansari和Dipesh Ansari“基于加权关联分类器的智能和有效的心脏病预测系统”,IJCSE, Vol 3(6), pp 2385-2392, 2011年6月。
- Jyothi。年代,Ujma。Dipesh。S和苏尼塔。S“医学诊断的预测数据挖掘:心脏病预测概述”,IJCA,第17卷(8),43-48页,2011年3月。
- K.Rajeswari,“使用机器智能预测印度心脏病风险评分”,IPCSIT,第4卷,2011年。
- Kavitha K.S,“进化神经网络在心脏病预测中的建模和设计”,国际医学工程学报,Vol 7(5), pp 272-283, 2010年9月。
- 刘志伟,“基于遗传算法的智能心脏疾病预测系统”,中国生物医学工程学报,Vol 3(3), pp67 - 67, 2007。
- Liangxiao。J,哈利。Z, Zhihua.C和Jiang。年代“One Dependency Augmented Naïve Bayes”, ADMA, pp 186-194, 2005.
- “数据挖掘技术在心脏病诊断和治疗中的应用”,日本-埃及电子通信与计算机会议,pp 189-193, 2012。
- Milan Kumari和SunilaGodara,“数据挖掘分类方法在心血管疾病预测中的比较研究”,中国医学科学,第2卷,2011年6月。
- “数据挖掘分类模型在心血管疾病诊断中的应用”,中国医学杂志,2011。
- N. Suguna, Dr. K.Dhansushkodi,“一种基于蜂群优化的医疗领域粗糙集约简算法”,计算杂志,第2卷(6),pp 49-54, 2010年6月。
- Nidhi Bhatia和KiranJyothi,“一种基于数据挖掘和模糊逻辑的心脏病诊断新方法”,IJCA,第54卷(17),第16- 21页,2012年9月。
- Nithya n.s., Sarumathi报道。S和Duraisamy博士。K“基于频繁特征选择方法的心脏病发作危险因素评估”,国际通信工程杂志,第1卷(1),ISSN 0988-0382, pp 127-133, 2012年3月。
- 王国伟,冯振哲,“基于错误分类分析的数据清理方法”,计算机工程与信息化国际研讨会,2009,东京。
- QeetharaKadhim Al. Shayea,“人工神经网络在医学诊断”,IJCSI,第3卷(2),2011年3月。
- 陈志强,陈志强,陈志强,“基于模糊神经网络的临床数据库时间规则挖掘方法研究”,中国临床医学杂志,2012,34 (3),pp 366 - 366, 2012。
- RafiahAwang和Palaniappan。年代“Intelligent Heart Disease Prediction System Using Data Mining techniques”, IJCSNS, Vol 8(8), pp 343-350, Aug 2008.
- RafiahAwang和Palaniappan。“基于Web的基于数据挖掘分类建模的心脏病决策支持系统”,中国医学工程学报,2007年第4期。
- Raghu.D。博士,“使用数据挖掘技术进行基于概率的心脏病预测”,IJCST, Vol 2(4), pp 66-68, 2011年12月。
- 桑德拉让。P,“数据挖掘算法在医疗保健数据中的应用研究”,计算机科学与技术,2011年第2卷第3期。
- “基于粗糙集的冠状动脉疾病诊断规则选择”,国际工程学报,第2卷(5),pp 198-202, 2009年12月。
- ShantakumarB。佩蒂,“基于数据挖掘和人工神经网络的智能和有效的心脏病预测系统”,《欧洲科学研究杂志》,第31卷(4),pp 642-656, 2009。
- Shanthakumar B. Patil,“从心脏病仓库中提取重要模式用于心脏病发作预测”,IJCSNS,第9卷(2),第228-235页,2009年2月。
- Sheik Abdullah,“使用粒子群优化特征选择决策树预测和分析冠心病相关事件的数据挖掘模型”,IJCA,第55卷(8),第49-55页,2012年10月。
- Shouman。米,特纳。T和Stocker。R,“k -近邻法在心脏病诊断中的应用”,《国际信息与教育技术杂志》2012年6月第2卷第3期。
- Siri Krishnan Wasan, VasuthaBhatnagar和HarleenKaur“数据挖掘技术对医疗诊断的影响”,数据科学杂志,第5卷(19),119-126页,2006年10月。
- 西瓦格里,S., M. Durairaj和A.波斯。“应用数据挖掘技术分析和预测心脏病的实证研究。”信息通信与嵌入式系统,2013年国际会议。IEEE 2013。
- Srinivas, Kavitha Rani和Dr. Govarthan,“数据挖掘技术在医疗保健和心脏病发作预测中的应用”,IJCSE, Vol 2(2), pp 250-255, 2010。
- “基于Naïve Bayes的心脏病预测系统的决策支持”,中国医学工程学报,第2卷,2011年5月。
- SubhagataChatropadhyay,“挖掘心脏病发作的风险:一项综合研究”,国际生物医学工程与技术杂志,第1卷(4),2013年。
- Sudha。Gayathri。p和Jaishankar。N“利用数据挖掘方法预测威胁生命的疾病生存能力”,IJAC(0975-8887),第14卷(17),2012年3月。
- Usha。王晓明,“基于神经网络的心脏病数据集分析”,中国医学研究,第1卷第5期,2011年9月。
- Sivagowry。年代,世卫组织博士Durairaj说。M,“pso -一种用于心脏疾病预测数据特征缩减的智能技术”,清华大学学报(自然科学版),2014年9月。
|