关键字 |
数据挖掘、文本挖掘、分类、AttributeSelectedClassifier过滤分类器,LogitBoost。 |
介绍 |
文本挖掘和知识发现从文本(KDT)处理机器支持文本的分析。usesmethods从信息检索、信息提取和自然语言处理(NLP)以及connectsthem与知识发现的算法和方法的数据,数据挖掘、机器学习和统计数据。当前研究领域的文本挖掘解决文本表示的问题,分类,聚类,或者thesearch和造型隐藏的模式。[5] |
文本挖掘是用于描述应用程序的数据挖掘技术来自动发现有用的orinteresting知识从非结构化或半结构化文本。文本挖掘的过程是综合信息通过分析的关系,模式和程序之间的半结构化的文本数据orunstructured文本。文本挖掘,有时交替称为文本数据挖掘是指从文本derivinghigh-quality信息的过程。高质量的信息通常是通过占卜的模式andtrends通过如统计模式学习。[6]文本挖掘的过程涉及到构建inputtext(通常分析,以及添加一些派生的语言特性和他人的去除andsubsequent插入到一个数据库中)派生模式的结构化数据,最后评价andinterpretation内输出。 |
一些重要的文本挖掘的应用程序包括企业商业智能、数据MiningCompetitive情报,电子证据发现,国家安全、情报科学发现,尤其是生命科学公司档案管理、搜索和信息访问和社交媒体监测。[13]的一些技术支持,开发并可以使用文本挖掘过程中信息提取,概念的联系,总结、分类、聚类、话题跟踪、信息可视化和questionanswering。 |
本文的其余部分组织如下。第二节讨论了文学的评论。第三节描述了theclassification元技术和各种算法用于分类。实验结果分析了切口4,在第五节给出结论。 |
文献综述 |
p . Kalaiselvi等[7]讨论了不同分类方法的性能如装袋,dag,装修,多类分类器,MultiboostAB进行了比较。装袋算法找到accuracythan其他算法是最好的。在这个实验中机器人导航数据集和分类精度,使用的时候验证方法计算了10倍。在未来同样的实验将进行不同datasetsinstead的多个数据集,多级,把几个乐团与不同的基分类器学习如何ensemblers结合基分类器精度提高性能。 |
尼基塔Bhatt等[10]讨论了不同方法基于数据集的元学习characteristicsprovides系统自动提供的排名分类器通过考虑不同特征ofdatasets和不同特征的分类器的生成元知识库后,排名isprovided基于定量调整比例(ARR)或准确性或时间,帮助非专家algorithmselection任务。 |
Pfahringer等[14]提出了一种新颖的meta-feature生成方法在元学习的背景下,基于程序,比较个人的绩效基础学习者以一对一的方式。除了这些新meta-features”,一个叫做近似的新meta-learner排名树森林森林(ART) performsvery竞争力相比,一些先进的meta-learners。实验结果是基于大型数据集的集合和表明,该新技术可以显著改善metalearningfor算法的总体性能排名。重点在这种方法中,每个性能图任何baselearner任何特定的数据集是由优化的参数基础学习者分别为每个数据集。 |
阿图尔费雷拉等[3]提出的概述提高算法来构建分类器的集合体。basicboosting技术及其变体为监督学习讨论和比较。扩展的thesetechniques semi-supervised学习也是解决。人脸检测,提高算法的有效的所有这些发展到目前为止,取得最好的结果。 |
方法 |
文本分类是文本挖掘领域的重要研究问题,与监管知识文档areclassified。在本研究工作中,可以将电脑文件基于扩展。例如,pdf,医生,ppt、xls等等。本研究工作的主要目的是找到最佳classificationalgorithm属性中选择分类器,分类器和LogitBoost过滤。researchwork的方法如下: |
1。可以从系统中收集数据集——计算机文件硬盘 |
2。元分类算法 |
•属性选择分类器 |
•过滤分类器 |
•LogitBoost |
3所示。性能因素 |
•分类精度 |
•错误率 |
4所示。最好的技术在分类元算法 |
•LogitBoost |
答:数据集 |
合成数据集可以从收集的计算机系统存储在硬盘中。这datasetcontains 9000实例和四个属性即文件名,文件大小,扩展和文件路径。数据挖掘Weka toolis用于分析分类算法的性能。 |
b .分类元算法 |
分类是一种重要的数据挖掘技术具有广泛的应用。它用于分类每一项在回应数据分成一组预定义的类或组。在documentclassification分类算法中起着重要的作用。有各种元分类算法如AttributeSelectedClassifier、装袋,装修,投票,FilteredClassifier, LogitBoost,最终,dag,旋转森林,等等。在本研究工作中,我们haveanalyzed三元分类算法。算法即AttributeSelectedClassifier, FilteredClassifier LogitBoost。 |
c .属性选择分类器 |
维度的训练和测试数据是减少属性选择在被传递给一个分类器。一些重要的属性分类器选择如下选项 |
一个¯·使用分类器——基分类器。 |
一个¯·调试,如果设置为true,分类器可能输出额外的信息到控制台。 |
一个¯·评估者——设置要使用的属性求值程序。使用它在属性选择阶段theclassifier之前调用。 |
一套¯·搜索——搜索方法。这种方法是使用属性选择阶段theclassifier之前调用 |
d .过滤分类器 |
这个类用于在数据上运行任意分类器通过一个arbitraryfilter。类似于分类器,过滤器的结构仅仅是基于训练数据和测试实例将beprocessed过滤不改变其结构。一些重要的选择asfollows在过滤后的分类器 |
一个¯·使用分类器——基分类器。 |
一个¯·调试,如果设置为true,分类器可能输出额外的信息到控制台。 |
一个¯·使用滤波器,滤波器。 |
大肠LOGITBOOST |
LogitBoost算法学习演算法的扩展。它取代演算法的指数损失algorithmto条件伯努利损失的可能性。这个类是用来执行添加剂逻辑回归。这classperforms分类使用回归方案为基础的学习者,并可以处理多类问题。 |
|
实验结果 |
答:准确性和错误率 |
有各种措施用于分类精度如真阳性,精度,F, ROCArea, kappa统计数据。TP率比的情况下正确地预测情况下的总阳性病例。F查全率和查准率测量是一种结合分数成一个单一的测量性能。精度theproportion返回的结果的相关文件。中华民国地区是传统的情节与1-false anormalized形式相同的信息负率策划反对假阳性 |
从上面的图表,分析了LogitBoost算法性能优于其他算法。因此LogitBoost分类算法表现良好,因为它包含最高精度comparedto属性时选择的分类器和过滤后的分类器。 |
b .错误率 |
他们的平均绝对误差(M.A.E),均方根误差(R.M.S.E),相对绝对误差(R.A.E)和根相对平方误差(R.R.S.R) [10]。平均绝对误差(MAE)被定义为quantityused测量距离预测或预测的最终结果。均方根误差(RMSE)被定义为常用的测量值预测模型之间的区别或estimatorand实际上观察到的值。相对误差是测量不确定度的测量与测量尺寸。根相对平方误差被定义为一个相对于原本的simplepredictor是否被使用。 |
从上面的图表,分析了LogitBoost算法性能优于其他算法。因此LogitBoost分类算法表现良好,因为它达到最低误码率相比toAttribute选择分类器和过滤分类器。 |
结论 |
数据挖掘可以被定义为从大型数据存储库提取有用的知识。文本miningis技术从结构化和非结构化数据中提取信息并找到isnovel和模式不清楚。本文分类元算法用于分类computerfiles是存储在计算机中。分类元算法包括三种技术namelyAttribute选择分类器,分类器和LogitBoost过滤。通过分析实验结果观察到LogitBoost分类技术的收益率比其他方法更好的结果。 |
表乍一看 |
|
|
表1 |
表2 |
|
|
数据乍一看 |
|
|
图1 |
图2 |
|
引用 |
- 恩-瓦贝H,阿卜杜拉穆罕默德Al-Kabi。,“Comparative Assessment of the Performance of Three WEKA Text Classifiers Applied to ArabicText”, Vol. 21, No. 1, pp. 15- 28, 2012.
- 阿卜杜拉•恩-瓦贝H Qasem Al-Radaideh,穆罕默德Al-Kabi N, Emad Al-ShawakfaM。”,一个数据MiningTools一些分类方法之间的比较研究”。
- 阿图尔费雷拉。,“Survey on Boosting Algorithms for Supervised and Semi-supervised Learning”.
- 克利斯朵夫Giraud-Carrier。,“Meta learning - A Tutorial”.
- ChristophGoller Joachim孤独。Thilo,维尔纳•沃尔夫。,“Automatic Document Classification: A thorough Evaluation of variousMethods”
- Falguni Patel N, Neha索尼R。,“Text mining: A Brief survey”, Volume-2 Number-4 Issue December-2012.
- 伊恩•威滕H Eibe弗兰克,马克大厅。,“Data Mining Practical Machine Learning Tools and Techniques”.
- Kalaiselvi P, Nalini C。,“A Comparative Study of Meta Classifier Algorithms on Multiple Dataset”, International Journal of Advanced Researchin Computer Science and Software Engineering, Volume 3, Issue 3, March 2013.
- BirenGajjar KaushikRaviya H。,“Performance Evaluation of Different Data Mining Classification Algorithm Using WEKA”.
- Mahendra女子,马努BhaiJha OmPrakashYadav。,“Performance analysis of Data Mining algorithms in Weka”, IOSR Journal of ComputerEngineering (IOSRJCE), ISSN: 2278-0661, ISBN: 2278-8727 Volume 6, Issue 3, PP 32-41, (Sep-Oct. 2012).
- 塔迦尔尼基塔Bhatt,阿米特,Amit Ganatra。,“A Survey & Current Research Challenges in Meta Learning Approaches based on DatasetCharacteristics”, Volume-2, Issue-1, March 2012
- 教授先生,太太Sayantani Ghosh Sudipta罗伊,萨米尔Bandyopadhyay K。,“A tutorial review on Text Mining Algorithms, Vol. 1, Issue 4, June2012.
- ShaidahJusoh, HejabAlfawareh M。,“Techniques, Applications and Challenging Issues in Text Mining”, Vol. 9, Issue 6, No 2, November2012.
- 希尔帕DhanjibhaiSerasiya Neeraj Chaudhary说。,“Simulation of Various Classifications results using WEKA”, International Journal of RecentTechnology and Engineering (IJRTE) ISSN: 2277-3878, Volume-1, Issue-3, August 2012.
- 全阳光、Pfahringer“成对meta-rules更好的机器学习算法meta-learning-based排名”,施普林格,MachineLearning, 93(1): 141 - 161年,2013年。
|
美国博士Vijayarani她完成了MCA, M。菲尔和计算机科学博士学位。她的工作是助理教授计算机科学与工程学院Bharathiar大学,哥印拜陀。她的研究兴趣领域数据挖掘隐私,安全、生物信息学和数据流。她在国际期刊上发表论文和研究论文在国际和国家会议。 |
M . Muthulakshmi太太她完成了M。Sc在计算机科学和信息技术。她目前正在追求。菲尔在计算机科学学院的计算机科学和工程、Bharathiar大学,哥印拜陀。她感兴趣的领域数据挖掘、文本挖掘和语义web挖掘。 |