所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

利用基因数据有效预测遗传疾病的分类器性能分析

R Preethi1, G M SuriyaaKumar1, N G Bhuvaneswari Amma2, G Annapoorani3.
  1. PG学者,数据库系统,印度信息技术研究所,Srirangam,印度
  2. 印度信息技术学院信息技术系教员,斯里兰加姆,印度
  3. 印度蒂鲁奇拉帕利理工大学工程学院计算机科学与工程系助理教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

在本文中,我们研究了使用遗传微阵列数据预测疾病类别的各种分类器模型的性能。我们分析了Naïve Bayes, J48, IB1和IBk四种分类器方法中最好的。分类是一种预测最佳分类器的技术。分类用于根据项目相对于预定义的类集的特征对项目进行分类。朴素贝叶斯算法基于概率,j48算法基于决策树。在本文中,我们使用类对数据集进行分类,我们发现J48分类器在准确预测疾病类别方面表现得更好。





关键字

预测,朴素贝叶斯,J48, IB1, IBk。

介绍

数据挖掘在有机化合物分析、医疗诊断、产品设计、目标营销、财务预测、自动抽象、预测电视观众份额等方面的应用越来越广泛。数据挖掘是指对存储在计算机中的大量数据进行分析。数据挖掘不是特定于一种类型的媒体或数据。数据挖掘应该适用于任何类型的信息存储库。数据挖掘正在应用和研究数据库,包括关系数据库、对象-关系数据库和面向对象数据库、数据仓库、事务性数据库、万维网等非结构化和半结构化存储库、空间数据库、多媒体数据库、时间序列数据库和文本数据库等高级数据库,甚至平面文件[2]。
分类分析是对给定类别的数据进行组织。这种分类也称为监督分类,它使用给定的类标签对数据集合中的对象进行排序。分类方法通常使用一个训练集,其中所有对象都已经与已知的类标签[3]相关联。分类算法从训练集中学习并建立模型。该模型用于对新对象进行分类。分类是一种统计操作,在这种操作中,某些对象根据其在训练集中发现的特征(有时称为属性)分组或分类。文献中有许多分类方法,如决策树、神经网络、支持向量机和贝叶斯网络等。在前面提到的分类方法中,贝叶斯方法是最常用来处理不确定性的,因为它是基于概率论的。

相关工作

朴素贝叶斯分类器

一个著名的分类器是朴素贝叶斯分类器,这是一种简单的贝叶斯网络,它打破了给定类的属性之间的条件独立性假设。在现实生活中,这种假设在大多数情况下并不成立。然而,朴素贝叶斯分类器已被证明是成功的。通常,在朴素贝叶斯分类器中,属性是离散的,但在大多数现实生活中,属性是连续的[4]。朴素贝叶斯分类器通过假设特征是独立的给定类,极大地简化了学习。尽管独立性通常是一个糟糕的假设,但在实践中,朴素贝叶斯经常与更复杂的分类器竞争得很好。我们的主要目标是了解影响朴素贝叶斯性能的数据特征。

决策树算法J48:

J48分类器是一个简单的C4.5分类决策树。它创建了一个二叉树。决策树法在分类问题中最有用。利用该技术,构建了一个树来模拟分类过程。一旦构建了树,它将应用于数据库中的每个元组,并对该元组进行分类。

算法J48:

图像
在构建树时,J48忽略了缺失的值,即该项的值可以基于已知的其他记录的属性值来预测。基本思想是根据在训练样本[5]中找到的该项的属性值将数据划分为范围。J48允许通过决策树或从中生成的规则进行分类。

IB1分类器

IB1分类器使用一个简单的距离测量来找到最接近给定测试实例的训练实例,并预测与该训练实例相同的类。如果多个实例到测试实例的距离相同(最小),则使用找到的第一个实例。IB1算法,是最简单的基于实例学习的分类方法[13]。IBL算法源自最近邻模式分类器(Cover & Hart, 1967)。它们与编辑过的最近邻算法高度相似(Hart, 1968;盖茨,1972;Dasarathy, 1980),它也只保存和使用选定的实例来生成分类预测。虽然一些研究人员证明,编辑的最近邻算法可以减少存储需求,最多在分类精度上有很小的损失,但他们无法预测存储需求的预期节省。IBL算法是增量的,它们的目标包括最大化随后呈现的实例[6]的分类精度。相似度和分类函数决定如何使用概念描述中保存的实例集来预测类别属性的值。 Therefore, IBL concept descriptions not only contain a set of instances, but also include these two functions.
在IB1方法中,这里使用的相似函数为:
图像
其中实例由n个属性描述。我们为数值属性定义f(xi yi;) = (xi,- yi)2,为布尔值和符号值属性定义f(xi, yi) = (xi≠yj)。假定缺失的属性值与当前的值最大程度上不同。如果两者都不存在,则f(xi, yi)的结果为1。IB1与最近邻算法相同,不同之处在于它规范了属性的范围,增量地处理实例,并有一个简单的策略来容忍缺失的值。

IBK (K -最近邻)

IBK是一个使用相同距离度量的k-近邻分类器。最近邻居的数量可以在对象编辑器中显式指定,也可以使用保留一个交叉验证焦点到指定值给出的上限自动确定。IBK是一种最近邻分类器。可以使用一种不同的搜索算法来加快查找最近邻居的任务。线性搜索是默认的,但进一步的选项包括kd树、球树和所谓的“覆盖树”。使用的距离函数是搜索方法的参数。剩下的和ibl一样,也就是欧几里得距离;其他选择包括Chebyshev距离、Manhattan距离和Minkowski距离。来自多个邻居的预测可以根据它们与测试实例的距离进行加权,并且实现了两个不同的公式来将距离转换为权重。

用于比较评价的标准

分类精度

所有的分类结果都有错误率,有可能不能正确分类。所以精度可以计算如下。
准确率=(正确分类的实例数/实例总数)* 100% (2)

平均绝对误差

MAE是所有测试用例中预测值和实际值之间差值的平均值。MAE计算公式如下式所示:
图像
这里“a”是实际输出,“c”是预期输出。

均方根误差

RMSE用于测量模型预测值与实际观测值之间的差异。通过取均方误差的平方根计算,如下式所示:
图像
这里“a”是实际输出,c是预期输出。均方误差是数值预测中常用的度量方法。

混淆矩阵

混淆矩阵包含分类系统所做的实际分类和预测分类的信息。使用机器学习工具计算每种机器学习算法的分类精度、平均绝对误差、均方根误差和混淆矩阵。
上面的表表示了用于使用基因数据预测疾病的各种分类器模型的各种精度度量。使用各种用于评价的标准,找出最佳分类器模型。用于评价的标准包括平均绝对误差、均方根误差、相对绝对误差和均方根相对平方误差。
上面的表表示了用于使用基因数据预测疾病的各种分类器模型的各种精度度量。使用各种用于评价的标准,找出最佳分类器模型。用于评价的标准包括平均绝对误差、均方根误差、相对绝对误差和均方根相对平方误差。
图1和图2展示了分类器的各种统计信息。图1表示所有分类器的正确和错误分类实例。图2展示了Naïve贝叶斯分类器中所有类的精度度量。图2和图3表示了不同类别的精度度量。基因资料按五类进行分类。这五类描述了五种遗传性疾病。因此,使用这些预测,人们可以很容易地识别一个基因模式,遗传性疾病的发生。图4表示了使用IB1分类器的数据的精度度量。从图表中可以发现,紊乱类MED被分类的错误较多。其他类别的错误率较MED类障碍低。
图5和图6表示了IBk分类器的精度度量和类的Roc曲线。从所有的结论可以看出,j48分类器的性能优于其他分类器。根据属性和实例的不同,实验结果可能会因数据集而异。

结论及未来工作

数据挖掘可以定义为从大型数据存储库中提取有用的知识。本文使用分类算法Naïve Bayes, J48, IB1和IBk分类器对基因数据进行分类,以预测遗传疾病。通过对实验结果的分析,发现J48分类器的分类效果优于其他分类器。随着本文的发展,我们将尝试在迭代训练集数据的基础上获得更好的结果。随着训练数据的增加,准确率会增加多少。

表格一览

表的图标 表的图标 表的图标 表的图标 表的图标
表1 表2 表3 表4 表5

数字一览

图1 图2 图3
图1 图2 图3
图4 图5 图6
图4 图5 图6

参考文献















全球科技峰会