所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

评估疾病诊断分类算法

Tamije Selvy P1Palanisamy V2Elakkiya年代3 *
  1. CSE,克里希纳斯理工学院,哥印拜陀印度泰米尔纳德邦,
  2. 本金,信息工程学院,哥印拜陀印度泰米尔纳德邦,
  3. CSE,克里希纳斯理工学院,哥印拜陀印度泰米尔纳德邦,
通讯作者:Elakkiya年代,电子邮件:elakkiya.soundar@gmail.com
相关文章Pubmed,谷歌学者

访问更多的相关文章全球研究计算机科学杂志》上

文摘

数据分类是数据的分类最有效和高效利用。数据可以根据任何标准分类,不仅相对重要性或使用的频率。分类在疾病诊断中起着重要作用。本文包含简短的讨论各种分类方法,包括基于案例推理、决策树,再邻居分类器,朴素贝叶斯分类器和神经网络。本文还讨论了分类模型的一些应用程序。性能的CBR分类模型的分类方法是观察到的结果在90.7%的特异性,灵敏度92.3%和95.5%的预测精度

关键字

分类、疾病诊断、基于案例推理、决策树,再邻居分类器,朴素贝叶斯分类器、神经网络精度

介绍

数据挖掘是指未知的和潜在的有用信息的提取数据库中的数据。数据挖掘是知识发现过程的一个组成部分。这是一个聪明的技术,可以用于提取有用的模式。除了收集和管理的数据,数据挖掘也包括分析和预测。
在数据挖掘分类技术是处理大量数据的能力。它可以预测分类类标签和分类数据基于训练集和类标签,因此可用于分类新数据。因此,数据挖掘可以概述为不可避免的一部分,越来越多的流行[2]。
本文研究在不同分类技术。下一节再研究处理机制。决策树、贝叶斯网络处理,处理基于案例的推理和描述了神经网络。最后一节总结了纸。

再邻居

最近邻(NN)[1]也称为最近点搜索是一种机制,用于识别未知的基于最近邻数据点的值是已知的。它有广泛的应用在各个领域,如模式识别、图像数据库、网络营销、聚类分析等。
最近邻机制可以分为两种类型。他们是基于结构和结构神经网络分类技术。事例少受到结构分类技术。基于结构的处理数据的基本结构,而结构机制与训练数据样本较少。后者克服了内存限制而前降低了计算复杂度。它使用多于一个的最近邻来确定给定的数据点属于的类,因此它被称为事例。
这些样本数据需要在运行时的内存,因此他们被称为基于内存技术。所有这些数据点是必要的为了做出决定在确定给定数据点的类。有大量的机器学习算法和基于事例是最简单的。它也可以被视为一个十大数据挖掘算法。
事例基本上工作假设数据是包含在一个特征空间中。因此所有的点都包含在里面,为了找出点之间的距离使用欧式距离或汉明距离根据所使用的数据类型的数据类。这里给出一个数字k用于确定邻居的总数决定分类。如果k = 1的值,那么它只是称为近邻[3]。事例需要:
一个整数k
b。一个训练数据集
c。一个度量来衡量亲密
图1显示了如何分类可以做基于k的值。
图像
事例机制是容易实现的,因此它使更快的实现和调试过程。它还可以帮助邻居点的简单分析。因此,该方法的主要优点是,可以更快地完成训练,简单,容易学习。大的训练数据可以确定,因此是一个健壮的机制。它主要侧重于大型训练数据集。几种降噪技术可以使用,可以用来提高分类器的机制。
它的一些缺点是它的内存的依赖,计算复杂度也增殖系数粘度值的依赖。它也需要大量的计算时间,因此是一个缓慢技术以来所有的过程是在运行时完成的。

决策树

决策树(DT)是另一种常用的分类方法。它由检查一组训练样本的类标签是已知的。然后应用这些特性已知的样本以确定未知样本的属性。他们可以被视为一个强大的和流行的工具分类和预测的过程。构造决策树的关键需求是其属性值描述这意味着它的对象应该是使用的一个固定的点称为属性的集合,预定义的类也称为离散输出值的目标类[4],最后完全足够的数据有助于理解模式。
决策树是一种分类器的形式类似于树和具有以下结构元素:
根节点:左侧的节点在一个决策树
b。决策节点:指定一个测试在一个属性
c。叶子节点:指示目标属性的值
d。优势:分裂的一个属性
e。端点:对大多数节点代表最终结果
DT是用分治法(D&C)构造方法。每个路径DT决定决策规则。通常它遵循一个贪婪的方法从上到下即;从根节点到终止节点递归确定最终结果,因此可以处理不确定性[5]。D&C策略方法问题在以下方式:
一。问题分解成不同的子问题是给定问题的实例
b。递归地解决这些问题
c。最后结合每个这些子问题的一个答案
决策树可以被视为更可翻译的比神经网络和支持向量机,因为他们将更多的数据在一个容易理解的格式。即使很小的输入数据的变化可能导致大变化在构建DT。在某些情况下,它必须处理不确定性。这可以解决使用序贯决策的DT。确定预期值的过程从节点到根节点被称为决策树回滚。
决策树可以与下面给出一个例子来解释。通常DT遵循自顶向下的方法。在这个例子中它显示天气预报方法处理预测是否晴雨和湿度的如果它是阳光明媚的。因此这可以应用于确定气候是否适合打网球。因此可以很容易地确定目前的气候以及将来,随之而来的将是什么,根据这个决定可以是否可以举行比赛。这也可以应用在其他应用程序如滚死,产品决策等进行预测分析。
DT的优点是它们的一些计算便宜,易于使用和实现和简单。它还提供了客观的分析决策,允许灵活性和有效的决策。DT的主要缺点是整个过程依赖于输入数据的准确性和使用也需要定性数据来确定输出的准确性。

贝叶斯网络

它提供了探索和理解数据的新方法。它可以从“证据”中通过计算目标即依赖之间的关系等。、独立变量。NBC的概率模型的概率是找到一个特定的类给多个不相交(假定)事件。朴素贝叶斯分类器应用到学习任务,每个实例描述x结合的属性值,目标函数f (x)可以取任何值从有限集诉一组训练提供了目标函数的例子,给出了一个新的实例,描述了属性值的元组< a1, a2, >。[11]学习者被要求预测目标价值,或分类,对于这个新实例。联合分布的贝叶斯网络是一个表示在图中所有变量表示为节点。让变量X (1),…X (n)。让父母(A)的父母节点,然后联合分布的X(1)通过(n)是表示为概率分布的乘积P(ξ|父母(Xi)) i = 1到n。如果X没有父母,其概率分布是无条件的,否则它是有条件的。的条件概率值的所有属性的类是预先计算的和存储在磁盘上。这可以防止分类器计算条件概率每次它运行。
这个存储数据可以重用减少延迟的分类器[8]。贝叶斯网络的最有趣的特性,而决策树是最肯定的可能性考虑之前给定问题的信息。朴素贝叶斯的一个重要的优点是,结构简单有助于理解可视化。贝叶斯网络可以很容易地处理不完整数据集。贝叶斯网络允许一个贝叶斯网络学习因果关系容易促进使用[6]的先验知识。贝叶斯分类器使用数据时高,属性是相互独立的,当我们想要更有效的输出,与其他方法相比,输出。图2显示了贝叶斯网络。
图像

基于案例推理

案例推理可能意味着适应旧的解决方案以满足新的要求;使用旧的情况下解释新情况;使用旧的情况下批评新的解决方案;或推理的先例来解释一个新形势下(就像律师)或创建一个公平的解决一个新问题(就像劳动介质)。如果我们观察我们周围的人们解决问题,我们可能会观察到案例推理中使用在我们周围。律师被教导要用例作为构造和证明论点的先例在新的情况下,[7]。介质和仲裁员被教导要做同样的事情。其他专业人士不教使用案例推理,但往往发现它提供了一种方法来有效地解决问题。考虑,例如,医生面对病人有症状的不寻常的组合。如果他看到患者相似的症状之前,他可能会记住旧旧的情况并提出诊断解决新问题。 If proposing those disorders wastime-consuming previously, this is a big savings of time. Of course, the doctor can't assume the old answer is correct. He/she must still validate it for the new case in a way that doesn't prohibit considering other likely diagnoses. Nevertheless, remembering the old case allows him to generate a plausible answer easily. Similarly, a car mechanic faced with an unusual mechanical problem is likely to remember other similar problems and to consider whether their solutions explain the new one. Doctors evaluating the appropriateness of a therapeutic procedure or judging which of several are appropriate are also likely to remember instances using each procedure and to make their judgements based on previous experiences. Problem instances of using a procedure are particularly helpful here; they tell the doctor what could go wrong, and when an explanation is available explaining why the old problem occurred, they focus the doctor in finding out the information he needs to make sure the problem won't show up again. We hear cases being cited time and again by our political leaders in explaining why some action was taken or should be taken [10]. And many management decisions are made based on previous experience. Case-based reasoning is also used extensively in day-to-day common-sense reasoning.
这种模式称为R4 CBR模型。因为这个模型可以表示为示意图周期包含4 Rs。图2。描述了R4周期
检索最相似的情况下
b。重用的情况下试图解决这个问题
c。修改建议的解决方案
d。保留新解决方案作为一个新病例的一部分
图像

人工神经网络

人工神经网络(ANN)是一种基于生物神经网络计算模型。安也叫神经网络。它包含相互关联的人工神经元联结主义的方法和过程的信息。安是一个自适应系统因为它改变它的结构基于信息流在学习阶段。
神经网络的基本拓扑结构由前馈神经网络和复发性网络。在前馈神经网络信息流从输入节点。信息流从输入节点隐藏节点只有一个方向,最后导致输出节点。每个节点在一个或多个处理元素(PE)可能是积极的。体育是用来模拟大脑的神经元。体育从外界接收输入或从之前的层。没有循环或循环网络。但在复发性神经网络数据流双向和反馈连接的存在。神经网络由三部分建筑、学习算法和激活函数)。神经网络程序存储、识别和检索的模式或数据库条目为解决定义不清晰的问题,过滤噪音测量数据精度高即他们能够近似复杂非线性映射。他们可以在硬件中实现。 Ease of maintenance is another factor. When an element of the neural network fails it can continue without any problem [11]. They are independent from prior assumptions. Major application of Neural network are in Function Approximation, Classification, Data processing, Robotics. Fig 3. Shows the neural connectivity and Fig 4. Shows the Artificial neural network
图像
图像

结果和讨论

基于检测的应用发作的各种分类算法检测精度[9]。基于案例的推理分类结果在90.7%的特异性、灵敏度92.3%和95.5%的预测精度。表1。显示了分类模型的性能。图4所示。显示了分类模型的比较
图像

结论

摘要各种分类技术应用于数据挖掘和研究。这些方法可以用在各种情况下需要一个往往是有用的,而另一个可能不是反之亦然。因此这些分类技术显示如何确定和数据分组在一组新的数据是可用的。每个方法有自己的优点和缺点,在报纸上。根据发作的应用基于案例的推理展示了令人印象深刻的准确性。

引用

  1. Nitin巴蒂亚(corr调查最近邻技术。作者)计算机科学系Jalandhar DAV学院这个精原细胞Jalandhar副局长的办公室
  2. 的调查数据挖掘分类技术:Thairν漂
  3. 再近邻分类器P´adraig Cunningham1和萨拉·简Delany2
  4. 决策树安德鲁·w·摩尔卡内基梅隆大学计算机科学学院的教授
  5. 快速决策树学习算法姜愫和哈利张新布伦瑞克大学计算机科学学院NB,加拿大,E3B 5 a3
  6. 十大算法在数据挖掘XindongWu一些库马尔·j·罗斯昆兰·Joydeep Ghosh杨·羌Hiroshi Motoda·杰弗里·j·克劳克兰·安格斯Ng Yu Bing刘·菲利普·s·施泰因巴赫Zhi-Hua周·迈克尔·大卫·j·斯坦伯格手·丹©斯普林格出版社伦敦有限公司2007年版
  7. K.-L。棕褐色,P.-K。Eng,公元前Ooi“有效进步的轮廓计算,”Proc。如您相依超大型数据基地(VLDB), 2001年。
  8. Charniak e . 1991年,.Bayesian网络没有眼泪。人工智能杂志,1991年冬天。
  9. Ben-Gal我。,Bayesian Networks, in Ruggeri F., Faltin F. & Kenett R Encyclopedia of Statistics in Quality & Reliability, Wiley & Sons (2007).
  10. 约旦、M.I. (1999)。学习图形模型、麻省理工学院、剑桥出版社,。
  11. 阿帕纳拉吉女士Bincy太太G, T太太。Mathu“调查常见的数据挖掘分类技术”,国际期刊的智慧基础计算,2卷,第一,2012年
全球技术峰会