所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

比较研究分类元算法

美国博士Vijayarani1m . Muthulakshmi太太2
  1. 助理教授,计算机科学,计算机科学与工程学院Bharathiar大学,哥印拜陀,Tamilnadu India1
  2. M。菲尔研究学者,计算机科学,计算机科学与工程学院Bharathiar大学,哥印拜陀,Tamilnadu、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据挖掘是一个最重要的计算机科学领域的研究领域。数据挖掘技术用于从大型数据库中提取隐藏的知识。有各种数据挖掘研究领域如图像挖掘、文本挖掘、序列模式挖掘,web挖掘,等等。文本挖掘的目的是处理非结构化的信息,从文本中提取有意义的数字指标,从而使文本中包含的信息可以访问不同的数据挖掘算法。有各种各样的方法在信息检索等文本挖掘,文档相似度、信息提取、聚类、分类、等等。搜索类似的文档有一个重要的角色在文本挖掘和文档管理。分类是文档相似度的主要任务之一。它是用来根据文件类别进行分类。在本研究中,我们分析了三元分类算法的性能即属性选择的分类器,分类器和LogitBoost过滤。这些算法用于分类电脑文件根据他们的扩展。 For example – pdf, txt, doc, ppt, xls and so on. The performances of Meta algorithms are analyzed by applying performance factors such as classification accuracy and error rate. From the experimental results, it is analyzed that LogitBoost performs better than other algorithms.

关键字

数据挖掘、文本挖掘、分类、AttributeSelectedClassifier过滤分类器,LogitBoost。

介绍

文本挖掘和知识发现从文本(KDT)处理机器支持文本的分析。usesmethods从信息检索、信息提取和自然语言处理(NLP)以及connectsthem与知识发现的算法和方法的数据,数据挖掘、机器学习和统计数据。当前研究领域的文本挖掘解决文本表示的问题,分类,聚类,或者thesearch和造型隐藏的模式。[5]
文本挖掘是用于描述应用程序的数据挖掘技术来自动发现有用的orinteresting知识从非结构化或半结构化文本。文本挖掘的过程是综合信息通过分析的关系,模式和程序之间的半结构化的文本数据orunstructured文本。文本挖掘,有时交替称为文本数据挖掘是指从文本derivinghigh-quality信息的过程。高质量的信息通常是通过占卜的模式andtrends通过如统计模式学习。[6]文本挖掘的过程涉及到构建inputtext(通常分析,以及添加一些派生的语言特性和他人的去除andsubsequent插入到一个数据库中)派生模式的结构化数据,最后评价andinterpretation内输出。
一些重要的文本挖掘的应用程序包括企业商业智能、数据MiningCompetitive情报,电子证据发现,国家安全、情报科学发现,尤其是生命科学公司档案管理、搜索和信息访问和社交媒体监测。[13]的一些技术支持,开发并可以使用文本挖掘过程中信息提取,概念的联系,总结、分类、聚类、话题跟踪、信息可视化和questionanswering。
本文的其余部分组织如下。第二节讨论了文学的评论。第三节描述了theclassification元技术和各种算法用于分类。实验结果分析了切口4,在第五节给出结论。

文献综述

p . Kalaiselvi等[7]讨论了不同分类方法的性能如装袋,dag,装修,多类分类器,MultiboostAB进行了比较。装袋算法找到accuracythan其他算法是最好的。在这个实验中机器人导航数据集和分类精度,使用的时候验证方法计算了10倍。在未来同样的实验将进行不同datasetsinstead的多个数据集,多级,把几个乐团与不同的基分类器学习如何ensemblers结合基分类器精度提高性能。
尼基塔Bhatt等[10]讨论了不同方法基于数据集的元学习characteristicsprovides系统自动提供的排名分类器通过考虑不同特征ofdatasets和不同特征的分类器的生成元知识库后,排名isprovided基于定量调整比例(ARR)或准确性或时间,帮助非专家algorithmselection任务。
Pfahringer等[14]提出了一种新颖的meta-feature生成方法在元学习的背景下,基于程序,比较个人的绩效基础学习者以一对一的方式。除了这些新meta-features”,一个叫做近似的新meta-learner排名树森林森林(ART) performsvery竞争力相比,一些先进的meta-learners。实验结果是基于大型数据集的集合和表明,该新技术可以显著改善metalearningfor算法的总体性能排名。重点在这种方法中,每个性能图任何baselearner任何特定的数据集是由优化的参数基础学习者分别为每个数据集。
阿图尔费雷拉等[3]提出的概述提高算法来构建分类器的集合体。basicboosting技术及其变体为监督学习讨论和比较。扩展的thesetechniques semi-supervised学习也是解决。人脸检测,提高算法的有效的所有这些发展到目前为止,取得最好的结果。

方法

文本分类是文本挖掘领域的重要研究问题,与监管知识文档areclassified。在本研究工作中,可以将电脑文件基于扩展。例如,pdf,医生,ppt、xls等等。本研究工作的主要目的是找到最佳classificationalgorithm属性中选择分类器,分类器和LogitBoost过滤。researchwork的方法如下:
1。可以从系统中收集数据集——计算机文件硬盘
2。元分类算法
•属性选择分类器
•过滤分类器
•LogitBoost
3所示。性能因素
•分类精度
•错误率
4所示。最好的技术在分类元算法
•LogitBoost
答:数据集
合成数据集可以从收集的计算机系统存储在硬盘中。这datasetcontains 9000实例和四个属性即文件名,文件大小,扩展和文件路径。数据挖掘Weka toolis用于分析分类算法的性能。
b .分类元算法
分类是一种重要的数据挖掘技术具有广泛的应用。它用于分类每一项在回应数据分成一组预定义的类或组。在documentclassification分类算法中起着重要的作用。有各种元分类算法如AttributeSelectedClassifier、装袋,装修,投票,FilteredClassifier, LogitBoost,最终,dag,旋转森林,等等。在本研究工作中,我们haveanalyzed三元分类算法。算法即AttributeSelectedClassifier, FilteredClassifier LogitBoost。
c .属性选择分类器
维度的训练和测试数据是减少属性选择在被传递给一个分类器。一些重要的属性分类器选择如下选项
一个¯‚·使用分类器——基分类器。
一个¯‚·调试,如果设置为true,分类器可能输出额外的信息到控制台。
一个¯‚·评估者——设置要使用的属性求值程序。使用它在属性选择阶段theclassifier之前调用。
一套¯‚·搜索——搜索方法。这种方法是使用属性选择阶段theclassifier之前调用
d .过滤分类器
这个类用于在数据上运行任意分类器通过一个arbitraryfilter。类似于分类器,过滤器的结构仅仅是基于训练数据和测试实例将beprocessed过滤不改变其结构。一些重要的选择asfollows在过滤后的分类器
一个¯‚·使用分类器——基分类器。
一个¯‚·调试,如果设置为true,分类器可能输出额外的信息到控制台。
一个¯‚·使用滤波器,滤波器。
大肠LOGITBOOST
LogitBoost算法学习演算法的扩展。它取代演算法的指数损失algorithmto条件伯努利损失的可能性。这个类是用来执行添加剂逻辑回归。这classperforms分类使用回归方案为基础的学习者,并可以处理多类问题。
图像

实验结果

答:准确性和错误率
有各种措施用于分类精度如真阳性,精度,F, ROCArea, kappa统计数据。TP率比的情况下正确地预测情况下的总阳性病例。F查全率和查准率测量是一种结合分数成一个单一的测量性能。精度theproportion返回的结果的相关文件。中华民国地区是传统的情节与1-false anormalized形式相同的信息负率策划反对假阳性
从上面的图表,分析了LogitBoost算法性能优于其他算法。因此LogitBoost分类算法表现良好,因为它包含最高精度comparedto属性时选择的分类器和过滤后的分类器。
b .错误率
他们的平均绝对误差(M.A.E),均方根误差(R.M.S.E),相对绝对误差(R.A.E)和根相对平方误差(R.R.S.R) [10]。平均绝对误差(MAE)被定义为quantityused测量距离预测或预测的最终结果。均方根误差(RMSE)被定义为常用的测量值预测模型之间的区别或estimatorand实际上观察到的值。相对误差是测量不确定度的测量与测量尺寸。根相对平方误差被定义为一个相对于原本的simplepredictor是否被使用。
从上面的图表,分析了LogitBoost算法性能优于其他算法。因此LogitBoost分类算法表现良好,因为它达到最低误码率相比toAttribute选择分类器和过滤分类器。

结论

数据挖掘可以被定义为从大型数据存储库提取有用的知识。文本miningis技术从结构化和非结构化数据中提取信息并找到isnovel和模式不清楚。本文分类元算法用于分类computerfiles是存储在计算机中。分类元算法包括三种技术namelyAttribute选择分类器,分类器和LogitBoost过滤。通过分析实验结果观察到LogitBoost分类技术的收益率比其他方法更好的结果。

表乍一看

表的图标 表的图标
表1 表2

数据乍一看

图1 图2
图1 图2

引用
















美国博士Vijayarani她完成了MCA, M。菲尔和计算机科学博士学位。她的工作是助理教授计算机科学与工程学院Bharathiar大学,哥印拜陀。她的研究兴趣领域数据挖掘隐私,安全、生物信息学和数据流。她在国际期刊上发表论文和研究论文在国际和国家会议。
M . Muthulakshmi太太她完成了M。Sc在计算机科学和信息技术。她目前正在追求。菲尔在计算机科学学院的计算机科学和工程、Bharathiar大学,哥印拜陀。她感兴趣的领域数据挖掘、文本挖掘和语义web挖掘。
全球技术峰会