分类器的性能分析Effieciently预测遗传疾病使用基因数据

R Preethi¹G M SuriyaaKumar¹N G Bhuvaneswari²G Annapoorani³

PG学者,数据库系统,印度信息技术研究所Srirangam,印度
教师、信息技术部、印度信息技术学院,Srirangam、印度
助理教授,计算机科学与工程系,工程大学校园,Tiruchirappalli、印度

文摘

在本文中,我们研究各种分类器模型的性能预测疾病类利用基因微阵列数据。我们分析最好的从四即朴素贝叶斯分类器方法,J48, IB1和韩国中小企业银行。分类技术来预测最佳分类器。分类是用来分类项目根据项目的特点对组预定义的类。朴素贝叶斯算法是基于概率和j48算法是基于决策树的。在本文中,我们将使用类和数据我们发现J48分类器性能更好的准确预测疾病类。

关键字

预测,朴素贝叶斯、J48 IB1、韩国中小企业银行。

介绍

数据挖掘是生长在各种应用程序广泛比如有机化合物的分析,体格检查诊断、产品设计、目标营销、财务预测、自动抽象,预测股票的电视观众等等。数据挖掘是指分析大量的数据,存储在电脑中。数据挖掘并不特定于一种类型的媒体或数据[1]。数据挖掘库应该适用于任何类型的信息。数据挖掘被投入使用,研究了数据库,包括关系数据库、对象关系数据库和面向对象数据库、数据仓库、事务性数据库、非结构化和半结构化存储库如万维网、高级数据库等空间数据库、多媒体数据库、时间序列数据库和文本数据库,甚至平面文件[2]。

分类分析是数据在给定类的组织。也被称为监督分类,分类使用给定的类标签数据收集的对象。分类方法通常使用一个训练集,与已知的类相关联的所有对象已经标签[3]。训练集的分类算法学习和构建一个模型。模型用于分类的新对象。分类是一个统计的操作中,某些对象放到团体或类根据他们的特点,有时被称为属性,发现在训练集上。有很多分类方法在文学,如决策树、神经网络、支持向量机和贝叶斯网络,等等。从上述分类方法,贝叶斯方法是最常用的处理不确定性,因为它是基于概率论的。

相关工作

朴素贝叶斯分类器

著名的分类器是朴素贝叶斯分类器,一个简单的爆炸条件独立性假设的贝叶斯网络类型属性的类。在现实生活中,这种假设并不持有的大部分时间。然而,朴素贝叶斯分类器已被证明是成功的。一般来说,在朴素贝叶斯分类器的属性是离散的,但在大多数实际情况下,属性是连续的[4]。朴素贝叶斯分类器极大地简化了学习通过假设是独立的给定类特性。虽然独立通常是一个糟糕的假设,在实践中朴素贝叶斯经常竞争与更复杂的分类器。我们的广泛的目标是理解数据特征影响朴素贝叶斯的性能。

决策树算法J48:

J48分类器是一个简单的C4.5决策树分类。它创建一棵二叉树。决策树方法是最有用的分类问题。这种技术,构造树模型的分类过程。一旦构建树,它应用于数据库中的每个元组和分类结果元组。

算法J48:

而建立一个树,J48忽略了缺失的值即可以预测项目的值基于已知的其他记录的属性值。基本思想是将数据划分为基于属性值的范围为项目中发现的训练样本[5]。J48允许通过决策树分类或规则生成。

IB1分类器

IB1分类器使用一个简单的距离测量发现训练实例接近给定的测试实例,并预测这类一样训练实例。如果是相同的多个实例(最小的)距离测试实例,使用第一个发现。IB1算法,是最简单的基于实例的学习分类方法[13]。IBL算法来自近邻的模式分类器(封面&哈特,1967)。他们是高度相似的编辑近邻算法(哈特,1968;盖茨,1972;Dasarathy, 1980),也只保存和使用所选实例生成分类预测。虽然一些研究人员证明了编辑近邻算法可以减少存储需求,最多小分类精度的损失,他们无法预测预期节省存储需求。IBL算法而不是增量及其对随后的目标包括最大化分类精度提出了实例[6]。相似性和分类函数确定保存实例的集合概念描述的用于预测类别属性的值。 Therefore, IBL concept descriptions not only contain a set of instances, but also include these two functions.

在IB1方法中,这里使用的相似性函数是:

n属性描述的实例。我们定义f(ξ彝族;)= (xi, - yi) 2 numeric-valued属性和f (xi, yi) =(ξ≠yj)布尔和symbolic-valued属性。缺少属性值被认为是最大的价值。如果他们都是失踪,那么f (xi, yi)收益率1。IB1近邻算法是一样的,除了它规范化属性的增量范围、流程实例,并有一个简单的政策容忍缺失值。

IBK (K -近邻)

IBK k-nearest-neighbour分类器,使用相同的距离度量。最近的邻居的数量可以显式地指定对象编辑器或确定自动使用分析交叉验证关注上限由指定的值。IBK knearest——邻居分类器。一种不同的搜索算法可以用来加速的任务找到最近的邻居。线性搜索是默认的,但进一步的选项包括KD-trees,球树,和所谓的“树”。距离函数使用的参数搜索方法。剩下的是一样IBL-that,欧氏距离;其他选项包括切比雪夫、曼哈顿和闵可夫斯基距离。预测来自多个邻居可以根据距离加权的测试实例和实现两个不同的公式转换成重量的距离。

用于比较的评价标准

分类精度

分类结果可能有出错率和它可能无法正确分类。所以精度可以计算如下。

精度=(实例正确分类的实例/总数)* 100% (2)

平均绝对误差

梅的平均预测与实际值之间的差异在所有测试用例。给出的公式计算美在方程如下所示:

“一”是实际产出和“c”是预期的输出。

根均方误差

RMSE用于测量值预测模型之间的差异和实际观察到的值。它是通过计算均方误差的平方根方程如下所示:

“a”是实际产出和c是预期的输出。均方误差的常用测量数值预测。

混淆矩阵

实际和预测分类混淆矩阵包含信息的分类系统。分类精度,平均绝对误差均方误差和混淆矩阵计算为每个机器学习算法使用机器学习工具。

以上提供的表,代表着不同的准确性措施不同的分类器模型用来预测疾病使用的基因数据。最好的分类器模型是用于评估发现使用不同的标准。用于评估的标准包括平均绝对误差、根均方误差、相对的绝对误差和相对根平方误差。

图1和图2说明了各种统计分类器。图1代表了正确和错误分类实例分类器。图2说明了所有类朴素贝叶斯分类器的精度的措施。图2和图3代表不同阶层的准确性的措施。基因数据分类和按五类。五类描述类型的遗传障碍。因此利用这些预测可以很容易地识别为一个基因模式,遗传疾病的发生。图4表示使用IB1分类器的精度测量数据。从图障碍类地中海发现分类与更多的错误。相对其他类医疗类障碍相比更少的错误。

图5和6代表IBk分类器的精度测量和Roc曲线为一个类。从所有的结论很明显,j48比其他分类器分类器性能更好。可能是实验结果可以从数据集,数据集根据不同属性和实例。

结论和未来的工作

数据挖掘可以被定义为的提取usefulknowledge从大型数据存储库。摘要theclassification算法即朴素贝叶斯、J48, IB1和IBk分类器是用于分类数据来预测基因遗传疾病。Byanalysing实验结果可以看出该J48比其他分类器分类器产生更好的结果。作为本文的开发,我们会获得更好的结果基于迭代训练集的数据。多远的准确性增加随着训练数据的增加。

表乍一看


表1	表2	表3	表4	表5

数据乍一看


图1	图2	图3

图4	图5	图6

引用

Almuallim, h和Dietterich T.G.,Learning with many irrelevant features. In Proceedings AAAI-91, volume 2, pp. 547-552, 1991.

布卢姆,A.L.,and Langley, P, Selection of Relevant Features and Examples in Machine learning. Artificial Intelligence, 97, pp. 245-271, 1997.

博兹,o .特征子集选择特性的相关性。2002年ICML提交。

Breiman, L。,Friedman, J.H., Olshen, R.A., and Stone, P.J,Classification and Regreession Trees. Wadsworth International Group. Belmont, CA, 1984.

羊毛衫,c .使用决策树来改善案例学习。ICML, 25-32, 1993页。

Caruana, R。,and Freitag, D, Greedy Attribute Selection. In: Cohen, W.W., and Hirsh, H. (eds). Proceedings of the 11th International Conference on Machine Learning. San Mateo, CA: Morgan Kaufmann, pp.28-36, 1994.

多明戈、p和Pazzani, m .独立性:简单贝叶斯分类器的最优性条件。1996年美国ICML pp.105 - 112, 1997。

多明戈、p和Pazzani, m . Simplie的最优贝叶斯分类器在0 - 1的损失。机器学习,29(2/3):103 - 130年,1997年11月/ 12月。

杜达、、和哈特,P。E、模式分类和场景分析。纽约,纽约州:威利和儿子,1973年。

Yugalkumar和g . Sahoo ?分析参数和非参数分类器分类技术使用WEKA, ?Int。日记账。信息技术和计算机科学7 43-49,2012页。

c . Lakshmi Devasena ?有效性的预测基于记忆的分类器的分类多元数据集?CS &IT-CSCP2012年,卷2,413 ? 424页。DOI: 10.5121 / csit.2012。

c . Lakshmi Devasena Sumathi。T, Gomathi.V。V和Hemalatha.M ?效能评估基于规则的分类器对虹膜的分类数据集?Bonfring Int。j . MachineInterface人1 (1):5 ?9日,2011年。

c . Lakshmi Devasena t . Sumathi教授Gomathi, r . Malarkodi和m . Hemalatha。?预测的有效性基于规则的分类器分类问题,?Proc. Int。Conf.网络、情报和计算机技术1 (2):559 ?563年。(ISBN: 978-81-8424-742 - 8), 2012年。

g . Nalinipriya Kannan a和p . Anandhakumar ?冠状动脉疾病的分类器性能分析多元数据集使用著名的度量,?欧洲科研杂志4号,卷。86年,pp.565吗?572年,2012年9月。