所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

评估基于CCI的分类算法的有效性

r . Srujana1博士G S N Murty2
  1. 打开学生,计算机科学与工程系,Aditya理工学院管理Tekkali Srikakulam,印度
  2. &头,教授计算机科学与工程系,Aditya理工学院管理Tekkali Srikakulam,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

机器学习已被广泛应用于各种领域,取得了很多成功。目前,各种学习算法可用,仍然面临困难选择最好的方法,可以应用到他们的数据。本文进行实证研究9个人学习算法在数据集通过分析他们的表演,并提供一些经验法则在选择数据集的算法。评价性能,这里我们提出监督式学习算法可以计算更快更好的定义一系列算法基于时间复杂性和混淆矩阵。评估结果在给定的数据集,接受者操作特征(ROC)曲线绘制在图通过灵敏度或召回。最后,一个结构化的方法来评估提出了监督学习算法的性能,以及建议的算法是最适合他们的数据集通过比较各种算法的有效性。

关键字

监督学习,混淆矩阵,中华民国。

介绍

机器学习是指一个系统,有能力自动从经验中学习知识和其他方面。分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型。处理机器学习分类时关键问题不在于学习算法优于其他人,但在哪些条件下一个特定的方法可以显著优于其他给定应用程序的问题[1][2]。这里我们考虑各种分类算法在数据集通过评估他们的表现基于一些因素。
给定的任何现有的实现分类器学习算法进行评估,weka API操作。然而,各自的用户必须获得一个相当深的知识在他们的数据集添加学习算法实现。我们的多语编辑器旨在填补这一空缺,提供一个易于使用的即插即用从业者的分类器的评估解决方案。现今,现有品种的学习算法研究人员巨大的[1]。研究人员所面临的主要问题是(我)如何选择哪种算法最适合数据集吗?(2)如何比较其他特定算法的有效性?本研究的目的是为社会提供一些建议通过评估的时间复杂性和混淆矩阵分类学习算法。这两个因素导致获得更好的和有效的结果。本文组织如下。第二节介绍了背景,第三节分类算法,第四节数据集,第五节评估、第六节实现第七节,结果和最后一部分总结了这项工作。

背景

一个机器学习算法可以从经验中学习(观察到的例子)对一些类的任务和性能测量。由于这些方法适合在不同的数据集构造分类器学习算法的能力/假设可以解释复杂的关系数据。示例应用程序包含垃圾邮件过滤,光学字符识别(OCR),搜索引擎和计算机视觉。机器学习是有时合并,有时区别数据挖掘和模式识别[1][2][3]。一般的机器学习任务可以多种形式的监督和非监督学习:监督学习需要一组已知的输入数据和已知的反应数据,并试图建立一个预测模型,为应对新生成合理的预测数据;和无监督学习有用的结构没有标签类,优化准则,反馈信号,或任何其他信息超出了原始数据。学习者的总体任务是分类和描述输入数据。监督机器学习技术适用于许多领域如生物信息学、疾病检测等。
图像
我们使用贝叶斯网络分类,朴素贝叶斯分类器,CONJUCTIVE规则,DTNB(结合朴素贝叶斯和决策表),决策表,猛烈的一击,JRip NNge算法。这里我们考虑多元数据集命名为定性破产数据集。通常,监督分类问题,培训的形式的例子是一组元组{(x1, y1j)…。(ynj xn)},习近平是标签的类和yij实例的属性集。学习算法的任务是产生一个分类器(假设,函数)分类到正确的类的实例。在这项研究中,我们只考虑监督机器学习应用于分类。

分类算法

这里我们使用各种算法分析数据集。我们的方法是识别一个优化算法可以更好地履行职责,分析速度更快。在这项研究中使用的学习方法都从WEKA机器学习获得包(http://www.cs.waikato.ac.nz/ ~ ml / WEKA /)
贝叶斯网:贝叶斯网或贝叶斯网络概率之间的关系的图形表示的一组随机变量。给定一个有限集合X = (X1,…, Xn)的离散随机变量,每个变量ξ值可能需要从一个有限集合,用Val (Xi) [2]。贝叶斯网络是一个带注释的有向无环图(DAG) G编码联合概率分布在x图的节点对应的随机变量(X1…Xn。直接影响图的对应的链接从一个变量。如果有一个直接链接变量ξ变量Xj, Xj变量ξ将父母的变量。注释每个节点的条件概率分布(CPD)代表p(ξ| Pa (Xi)),在Pa (Xi)表示Xi的父母在G .两人(G, CPD)编码联合分布p (X1,…, Xn)。一个独特的联合概率分布从G / X映像:
p (X1,…, Xn) =Πi (p(ξ| Pa (Xi)))
朴素贝叶斯分类器:朴素贝叶斯网络是一个简单的概率分类器基于应用贝叶斯定理,并有很强的独立性假设[2]。因此,独立模型是基于估计:
图像
比较这两个概率,更大的概率表明类标签值,更有可能是实际的标签(如果R > 1:我预测,预测j)。自从贝叶斯分类算法使用一个产品操作计算概率P (X, i),特别容易被过度影响概率为0。朴素贝叶斯分类器的主要优点是它的计算时间短的培训。
决策表:表示的输出机器学习的最简单的方法是把它放在相同的形式作为输入。它总结了数据集„决策表”包含相同数量的属性与原始数据集[8]。两个变量的决策表分类器是可用的。他们DTMaj(决策表多数)和DTLoc(决策表的地方)。
DTNB:这是用于构建和使用决策表/朴素贝叶斯。该算法估计的价值将属性分成两个不相交的子集:一个用于决策表,另一个用于朴素贝叶斯[8]。学习相结合的算法模型(DTNB)收益几乎以相同的方式作为一个独立的DTs。类概率的估计DT和NB必须结合生成整体类概率估计。总体类概率计算
问(y | X) =α×QDT (y | X >)×QNB (y | X⊥) / Q (y)
QDT (y | X >)和QNB (y | X⊥)类概率估计分别获得的DT和NB,α是一个归一化常数,和Q (y)是类的先验概率。
CONJUCTIVE规则:CONJUCTIVE规则算法实现了一个结合的规则学习者可以预测数值和名义类标签。规则由先行词”和“ed的顺向(类值)在一起,分类或回归。在这种情况下,随之而来的是可用的类的分布(或意味着一个数值)的数据集。
专家:专家算法为每个属性创建一个规则的训练数据,然后拿起最小错误率[8]的规则。为一个属性创建一个规则,最常见的为每个属性值必须确定类。最常见的类是最常出现的类属性值。
JRip: JRip学习者实现命题规则,重复增量减少修剪产生错误(开膛手)。它是基于关联规则与减少错误修剪(代表),一个很常见的和有效的技术决策树算法。
NNge: Nearest-neighbour-like算法使用non-nested广义范本(NNge)(超矩形,可以视为if - then规则)。
部分:一部分是separate-and-conquer规则学习。算法生成集的规则称为„决策列表”命令的规则集。新的数据列表中的每个规则反过来相比,和项目的类别分配第一个匹配的规则。该算法C4.5和开膛手规则学习。

数据集

在本研究中我们使用以下数据集从UCI机器学习库。我们简要描述定性破产数据集[4]。破产是金融业务的失败,当一个组织不能偿还债务是称为破产。
图像

评价

混淆矩阵:
在机器学习领域,一个混淆矩阵,也称为列联表或一个误差矩阵,是一个特定的表布局,允许的可视化算法的性能[6]。矩阵的每一列代表一个预测类的实例,而每一行代表一个实际的类的实例。下面表3和两行两列报告假阳性的数量(FP),假阴性(FN),真正的阳性(TP),和真正的底片(TN)。这也使得比比例的更详细的分析正确猜测(精度)。
图像
评估性能和测量正确的比例分类实例(CCI)我们使用分类器在分类学习精度;
ACC = (TP + TN) / (TP + TN + FP + FN)
b .中华民国
接受者操作特征(ROC)图是一个有用的技术组织分类器和可视化性能[7]。它是由策划真阳性的分数的实际总阳性(TPR = true正率)和假阳性的分数总数的实际底片(玻璃钢=假阳性),在不同的阈值设置。TPR也称为灵敏度或召回。
TPC = TP / P = TP / (TP + FN)
玻璃钢也被称为影响和可以计算作为一个负的多个知名的特异性。
程控= TN / N = TN / (FP + TN)
玻璃钢= FP / N = FP / (FP + TN) = 1-SPC
图像
c .时间复杂度
它用于计算计算时间。在这种情况下,我们计算时间复杂度分类学习算法之一。每个算法评估并获得他们的破裂时间。算法与最小破裂时间的数据集是最好的算法进行分类。

实现

在计算给定数据集使用分类算法,确定优化的算法,基于两个因素即可以执行得更快。、时间复杂度和混淆矩阵。在这个过程中步骤:
1)加载数据集:数据集是最初作为一个excel表。这个表是一个属性关系转换文件格式(飞机救援消防)的标准文件格式的数据挖掘算法。这里我们使用一个java程序来加载数据集。
图像
2)应用算法:加载数据集后,我们使用以下分类算法列在第三节。应用,计算时间复杂度,正确分类元组百分比和ROC敏感性或召回。
3)识别的优化算法:在完成步骤2我们为每个生成应急矩阵算法和百分比之间的比较是执行正确分类实例选择更好的算法在给定的数据集。即使计算时间复杂度,可以选择最佳算法在给定的数据集。
图像

结果

结果性能的各种分类算法在图示所示,评估基于时间复杂度和比例的正确分类的实例。
图像
图像

总结

机器学习各领域日益引起了人们的关注。在各种学习算法的可用性,它已成为常见的扫描仪应用系统对数据集进行分类。在本文我们执行比较各种算法进行分类。如果我们感兴趣的最好的精度,它可能难以或者不可能找到一个单一分类器执行以及良好的系综分类器。尽管,我们展示了如何选择哪种算法最适合的数据集,以及如何比较其他特定算法的有效性,在时间复杂度和百分比的分析正确分类的实例。多种形式的机器学习任务可以监督和非监督学习。在未来的工作中,我们可以应用数据集分析的无监督学习表演。

确认

作者非常感谢导演教授教授Nageswara饶博士和本金K.B. Madhu Sahu提供优秀的基础设施来完成这项工作。作者想表达自己的真诚感谢Smt.N。Preeti, Asst.Prof MCA、Aditya技术和管理研究所tekkali - 532201, Srikakulam (dt),美联社,建议在准备手稿和有价值的建议和鼓励。

引用

  1. Choon TAN和大卫·吉尔伯特Aik队效力,实证比较的监督机器学习技术在生物信息学、信息技术融合和服务的国际期刊(IJITCS)第1卷,第四,2011年8月。
  2. s . b . Kotsiantis监督机器学习:分类技术的回顾,Informatica 31 (2007) 249 - 268 249
  3. 穆罕默德Fauzi本Othman博士Thomas卫生部山瑶族、比较不同的分类技术使用WEKA乳腺癌,2006年国际生物医学工程会议。IFMBE程序体积15,2007年,页520 - 523。
  4. Myoung-Jong金正日*,韩Ingoo专家”的发现决策规则使用遗传算法从定性破产数据,专家系统与应用程序25 (2003)637 - 646。
  5. Eibe弗兰克,伊恩·h·威滕生成精确的规则集,没有全局优化,十五机器学习国际会议上,144 - 151年,1998年。
  6. 使用改进的混淆矩阵系综分类器、电气和电子工程师在以色列(IEEEI), 2010年IEEE 26日大会的会议日期:日机汇。2010页(s): 000555 - 000559
  7. 汤姆·福西特ROC曲线图:笔记和研究的实际问题,惠普实验室,女士1143年,1501页的轧机,帕洛阿尔托,加州94304年3月16日,2004年。
  8. s . Vijayarani m . Muthulakshmi评估规则的效率的技术文件分类、IJRET, eISSN: 2319 - 1163 | pISSN: 2321 - 7308