所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

使用数据挖掘技术监测心脏疾病

Jyotismita Talukdar
项目工程师,部门仪器& USIC哈大学,印度阿萨姆邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

疾病的诊断数据库可用在医学的一个重要和复杂的工作。随着时间的推移,人们越来越容易受到几种疾病由于以下几个原因。最常见的疾病之一,在全球各地的心脏病。近60%的世界人口成为这种疾病的受害者。在本文中,我们试图找到最可能的因素可能负责一个人患有心脏病。的整个过程进行数据挖掘是数据可用于患有心脏病。使数据挖掘工具被用于执行的任务分析心脏病患者的数据。数据被划分为训练和测试数据集。接下来的步骤即集群和建模是进行训练数据集,测试数据集用于获得公正的错误。我们还发现的相关性在本研究中使用的属性。 After finding the relationship of several attributes of the datasets of the heart patients we give a detailed explanation through the use of rattle data mining tool. Finally, the optimal heart parameters related to heart problem are found out for quick and correct diagnosis.

关键字

数据挖掘,使数据挖掘工具,心脏病、相关性、集群、先验的算法、决策树和Ada -提高建模。
图像

介绍

提取有用的信息的概念和具体的决策来支持医疗机构存在从世纪当数据是相对较低。约翰·斯诺[1]被认为是现代流行病学的父亲。他试图分析霍乱的来源使用早期形式的酒吧图在1854年初,证明它是通过水源传播。弗洛伦斯·南丁格尔[2]在1855年发明了极地地区图帮助跟踪军队的死亡由于不卫生的临床实践。她解释说这些图的帮助下说服决策者减少死亡的人数。然而使用数据挖掘的概念在卫生部门不是约会只是早在2003年。Wilson, 2003年[3]扫描情况下数据库知识发现和数据挖掘技术应用于健康数据库。威滕和弗兰克在2005年[4]使用数据挖掘的概念,找到医院的趋势数据,还定义这些数据的几种模式。程等2006年[5]指出,大量的数据库中的数据会很困难的人们发现一些有用的知识。Shillabeer和罗迪克在2007年[6]提出了使用数据挖掘的概念在卫生部门来处理大量的数据,找出一些有用的信息,并采取卓有成效的决策。 According to the Health Grades Hospitals Study in 2007 “about 87% of hospital deaths in the United States could have been prevented, had hospital staff (including doctors) been more careful in avoiding errors”. Lavrac et al. in 2007 took help of the geographic information system along with data mining to analyze the similarities of the community health centres in Slovenia. Due to the lack of strict sanitization and sterilization measures in Philippines at the Rizal Medical Center in Pasig City in October 2006, lead to the death of several new born babies due to several bacterial infection. This was because nobody tried to see the factors of death and also the patterns. Kou et al. in 2004[7] used the concept of data mining and KDD to discover the faults in credit cards and insurance claims. This greatly helped the health sector insurance policies to be setup strictly to benefit the patients. Cheng, et al stated that the use of data mining in the analysis of the heart diseases of human beings could highly help in the early detection of the heart problems. Cao et al in 2008[8] showed how the use of data mining could aid in tracking the changing trends in the cancer vaccines. Kellogg et al. in 2006 used the concept of spatial modeling, spatial data mining and simulation to show the characteristics of disease outbreak in several places. Wong et al. in 2005[9] introduced WSARE, an algorithm to detect disease outbreaks in their early stages. Thangavel et al in 2006[10] used the K-Means clustering algorithm to predict the outbreak of cervical cancer. Gorunescu in 2009 explained how computer-aided diagnosis (CAD) and endoscopic ultrasonographic elastography (EUSE) in addition to data mining would create a new area of cancer detection.

疾病的根源

心脏疾病是最突出的原因之一全球所有直到死亡日期。心脏病是一个广义的概念,它包括几个异常对心脏影响心脏的不同组件。心也可以称为有氧运动,所以所有疾病有关的心被称为心血管疾病。根据一些调查,发现印度拥有最多的世界各地的心脏病患者。根据加州下级法官、印度到2015年将有620亿个心脏病患者。心脏病最常见的原因是低效的心脏泵血从心到身体的其他部位,反之亦然。有几种类型的心脏病。他们中的一些人是:
冠心病。
心绞痛。
充血性心力衰竭。
心肌病。
先天性心脏病。
心律失常。
心肌炎。
在他们中,冠心病是世界上最常见的心脏病。也被称为冠状动脉疾病(CAD),这种类型的冠状血管阻塞的斑块沉积导致减少的血液和氧气供应到心脏。对于任何诊断是非常重要的任何时间近似可用的病人数量。冠心病可以进一步分为几类。它们是:
不稳定性心绞痛(UA):不稳定性心绞痛是一个类别的心脏病,心脏得不到足够的氧气和血液流动。通常导致心脏肌肉较弱,因此也被称为“心肌”。其他一些不稳定性心绞痛心脏病的危险因素有:高血压,高胆固醇,低高密度脂蛋白胆固醇,肥胖、高龄、吸烟等
完整的心传导阻滞(慢性乙肝):完成心肌梗死发生在心脏的电信号不能通过从心脏的心房室。一些慢性乙肝的症状如下:
头晕。
心悸。
疲劳。
胸部压力或疼痛。
呼吸短促。
慢乙肝也称为第三度心传导阻滞。它指心脏的失败是正常的节奏控制心律失常
心肌梗死(MI):这种类型的心脏病是指心脏的故障和问题的问题在心脏的血液供应到其他地区
心肌梗塞的症状有:
心脏挤压的感觉。
胸部疼痛
疲劳
呼吸短促。
焦虑。

问题陈述

心脏病的患者数量的增加已成为很难拿出任何信息知识从数据可用于心脏病患者。结果,人们不能够做任何的决定有关的主要原因和关系的心脏疾病的几个因素。带来一些有益的知识是非常必要的,可以帮助医生和病人进行他们的研究和诊断容易得多。数据挖掘可以帮助在这方面。然而,用户没有意识到数据挖掘工具。我们主要专注于喋喋不休的数据挖掘工具,我们需要看到这个工具的利弊。我们也需要检查它的适应性研究

数据收集

本研究中使用的数据收集从五个政府和私立医院的北印度的东部地区。5000年本研究数据的心脏病患者(男性和女性)使用。数据的真实性检查医院心脏病专家的关注。

数据挖掘技术在医疗行业

随着全球越来越多的心脏病人,医疗行业或医院对病人产生大量的复杂的数据记录。这些大多是基于各自的医院资源,诊断方法之后,医院的仪器,和医生的专业知识等。然而,所需的专业知识和技术还为大多数国家大不相同。此外,缺乏有效的分析工具,对病人有用的信息数据是主要的瓶颈。此外,大型和复杂的日期集的处理传统方法对正确的诊断是另一个主要障碍。对于这种情况,数据挖掘提供了一个有效的方法去发现非常有用的信息从这些数据库中。数据挖掘可以提供医疗保健专业人士的额外知识来源做决定。数据挖掘也很有用在卫生部门检测欺诈和滥用数据,还可以帮助病人得到更好的治疗以实惠的价格和服务。在医疗行业数据挖掘的使用大大增加由于以下原因
数据过载医院循证医学和预防错误的早期检测和/或预防疾病:欺诈和异常检测诊断和治疗客户关系管理使数据挖掘工具
喋喋不休的缩写是R分析工具很容易学习。摇铃是一个图形化的数据挖掘工具,提供了一个途径来R(威廉姆斯,2009 b)。扰乱了使用Gnome(1997)工具包的空地(1998)图形用户界面(GUI)构建器。Gnome是独立于任何编程语言;然而喋喋不休的图形用户界面使用python编程语言。拨浪鼓使用Gnome图形用户界面作为提供RGtk2包。喋喋不休的其中一个最重要的一点是它运行在不同操作系统即女士/ Windows, GNU / Linux, mac OS / X。R是用作喋喋不休的数据挖掘工具。它是开源的数据挖掘工具。拨浪鼓是基于一个广泛收集R包。 These packages are all available from the Comprehensive R Archive Network (CRAN)

提出的方法

本文的主要目的是找出有用的关系可用的数据和利用数据的知识。这个过程我们需要遵循的步骤如下:
加载数据集:摇铃可以加载数据从不同的来源。它可以接受文件从CSV(逗号分隔数据),文本文件,xls文件。它可以接受数据通过ODBC连接,飞机救援消防的格式。在目前的研究中,我们将处理xls文件,其中包含心脏数据的患者患有心脏病。探索:这个特殊标签有几个选项。它允许我们还探索可用的数据和查看详细描述的各种属性。选择找到直方图,盒子情节,点阴谋的数据帮助我们找到的意思是,中位数、四分位数、范围、方差、协方差、相关、偏态和峰态

分析和结果

在探索选项卡中,几个选项有:总结,基础知识,分布、相关性和主成分。我们详细描述了每一个选项。我们最初的概率找到心脏病的发生的可能性考虑年龄因素作为目标变量。

A.SUMMARY

它给出了一个数据集的基本细节。它给的信息的意思是,中位数,第一四分位数和第三个四分位数。它也给信息的最小值和最大值的每个属性的数据集。结果如表1.0所示:它给一个数据集的基本细节。
图像
表1给出的信息的意思是,中位数,第一四分位数和第三个四分位数。它也给信息的最小值和最大值的每个属性的数据集。结果如下:

B.BASICS:

它提供的信息的意思是,中位数和Summary选项卡提供的所有细节,包括偏态、峰态值和方差。他们如下所示:
图像
图像

分布

它有助于生成几个情节来探索各种分布的数据。它给表示使用直方图和累积分布和本福特图表。
图像
图像
图像

累积分布:

累积分布函数通常发现的概率随机变量“X”将被发现在一个概率分布小于或等于X。
图像
图像
图像

相关

它指的是两个变量的依赖关系。它可以通过各种方法即:皮尔逊负责人肯德尔,枪兵。喋喋不休的数据挖掘工具,它支持这三种方法找到各种变量之间的相关性。这些图形所示:我们可以了解相关的等级通过观察图形元素的形状和颜色,在图2.0。如果任意两个变量是完全相关互相关联的值等于1,那么它就是由一条线在上面的图所示。然而,一个完美的圆图中表明,几乎可以忽略不计的变量之间的相关性或者我们可以说他们之间没有相关性。圆圈变成直线逐渐随着变量之间的相关性增加。我们又一次看到的方向对齐的椭圆表示相关性是否积极的还是消极的。如果椭圆反时钟明智的然后我们一致得出结论,相关性是负的。然而,如果椭圆是顺时针方向一致,那么相关性是积极的。 The color of the ellipses and circles indicates the degree of the correlation. For zero correlation, the color of the circle is white which becomes darker as the degree of correlation increases. When the variables are perfectly correlated, then the color of the line is perfectly black. Thus we can say that as the degree of correlation increases, the color of the ellipse goes on becoming deeper. Red shades are used for positive correlation whereas blue shades are used for negative correlation.
图像
图3表示他依赖的两个变量的12个变量考虑目前的研究。所以你可以找到12个不同变量的相关性考虑目前的研究仅仅通过看到圆形/椭圆形的形状和方向。
图像
图4表示总12个参数的变量相关性集群被认为是目前研究。
图像
图5代表theSpearman方法确定不同参数之间的相关性考虑任何的正确诊断心脏相关的问题。形状,完美的圆或椭圆取向表明相关性的大小在文本中描述的参数. .
图像
图6代表负责人肯德尔的方法确定不同参数之间的相关性考虑任何的正确诊断心脏相关的问题。形状,完美的圆或椭圆取向表明相关性的大小在文本中描述的参数. .
变量之间的线性关系,皮尔森相关法更好。然而,对非线性的关系,斯皮尔曼相关法更好。现在调查相关使用分层方法,我们得到了变量之间的相关性的形式dendogram。绘制在右边的变量。变量与dendogram根据他们是如何相关的。x轴是一个测量范围从0到2。线的长度在dendogram指示了变量之间的相关性。变量的相关性目前显示的帮助下dendogram如下:

造型

答:决策树

我们可以使用喋喋不休的模型构建决策树标签树的选择。后加载数据集,并确定输入变量和目标变量,我们选择决策树模型选项卡的选项。决策树是一种非常方便的方式对知识的有效表示。让我们看看树的结构,提出了在文本视图中。
图像
作为代表在图7中,决策树模型对知识的有效表示非常方便的方式。让我们看看树的结构,提出了在文本视图中。

b .错误

这个选项有助于故事情节的错误率逐步树的数量。在我们的例子中树木正在建造的总数是50。然而,要注意到整个错误率取决于训练数据集。相对错误率显示如下:
图像
这个情节,fig.8,帮助我们想象的错误率遇到训练数据集。这个出错率被认为是在利用优化后的参数适当的诊断。
图像

结论

在本文中,我们正在隔离最常见的心脏病的因素用喋喋不休的数据挖掘工具和计算多个属性之间的关系。正在考虑数据集包含16个变量。16属性,然而,这两个属性都被忽略了,因为它不以任何方式提供的分析数据。属性“疾病”作为目标,“id”作为识别变量。我们在执行任何分析之前进行预处理数据,它包含了许多异常。删除值被忽略了。属性“胆固醇”、“重量”、“Thalach”和“的边后卫”是归一化的值,然后“胆固醇”、“重量”分类。因此从整体分析的数据我们可以得出一个非常重要的结论,真正造福于病人的需要。在场的几个变量的数据集,我们可以看到,只有五个变量的概率真的贡献的决心为患者心脏病的发生。因此,真正帮助病人找出如果他/她是否容易心脏病。
这项工作可以进一步扩展如果更多的变量可以互相找到变量的适应性以及其他疾病。我们可以e x t e n d观察和发现考虑环境条件在日常生活的影响。

引用

  1. 史蒂文约翰逊柏林“鬼地图:伦敦最可怕的流行病——的故事以及它如何改变了科学、城市和现代世界”。2006年
  2. Audain C。弗洛伦斯·南丁格尔在线:http://www.scottlan.edu/riddle/women/nitegale.htm 2007。
  3. 威尔逊,R, Hemsley.Brown j .;伊斯顿,C,夏普,C;:使用学校改进研究:草地的作用,国家基础教育和研究NFER (), Slough.2003。
  4. 威滕,我。H和弗兰克。E(2005):数据挖掘:实用机器学习工具和技术。摩根Kaufmann系列的数据管理系统。摩根考夫曼。威尔逊。,Thabane, I, Holbrook A (2003) “ Application of Data Mining techniques in pharmacovigilanc e “. British Journal of Clinical Pharmacology. (57)2, 127-134.
  5. 程,T . h,魏,曾V.S. C.P特征选择的医学数据挖掘:专家判断和自动方法的比较。计算机学报》第九届IEEE研讨会上基础的医疗系统(cbm ' 06), 2006年。
  6. Shillabeer,。罗迪克,J,建立医学知识发现的血统。ACM国际会议就像系列。70年(311年),29 - 37.2007。
  7. 口,Y。,, C.-T Sirwongwattana, S。黄,Y.-P。调查欺诈检测技术。在网络、传感和控制,2004年IEEE国际会议上网络、传感和控制。(2)749 - 754。2004。
  8. 曹,X。,马宏升K.B.Brusic, V。数据挖掘的癌症疫苗试验:一只鸟的黑眼圈。Immunome研究4:7.DOI: 10.1186/1745——7580 - 4 - 7.2008。
  9. Wong W.K,摩尔,库珀,G。瓦格纳,M,最近的事件(WSARE):有什么奇怪的疾病暴发的早期检测的算法。机器学习研究杂志》上。6,1961 - 1998年,2005年。
  10. Thangavel, K。,Jaganathan,P.P. and Easmi, P.O. :Data Mining Approach to Cervical Cancer Patients Analysis Using Clustering Techniques . Asian Journal of Information Technology (5) 4 ,413- 417.2006.
全球技术峰会