比较筛选和包装方法与数据挖掘技术为分类变量的选择

Bangsuk Jantawan^1、2,Cheng-Fa蔡²

热带农业与国际合作、国家屏东科技大学,屏东,台湾
部门管理信息系统,国立屏东科技大学屏东,台湾

文摘

本研究的目的是评价高等教育毕业生就业能力的最重要的特征数据库,在试图衡量就业形势在泰国Maejo大学毕业信息。实验还适用于特征选择方法增加了分类模型的整体效率。有两种通用的属性选择方法:过滤方法和包装方法。筛选方法包括3方法,包括信息增益,增益比例和卡方检验。包装方法我们使用搜索方法组成的遗传搜索,最好优先搜索和贪婪逐步作为子集生成的随机搜索方法,用不同的贝叶斯分类器即朴素贝叶斯、贝叶斯网络K2算法、贝叶斯网络与Hill-climber TAN算法和贝叶斯网络算法。结果说明,采用特征子集选择使用提出了包装方法提高了分类精度。

关键字

属性选择、数据挖掘、筛选方法,包装方法

介绍

如今,每年的数据量迅速增加,特别是在研究生就业能力的历史数据库。它包含大量的数据在数据库中。这些数据也包括当前未知的和潜在的有趣的模式和关系,可以发现使用知识发现和数据挖掘技术。数据挖掘技术潜力巨大的分析隐藏模式在教育领域的数据集。这些模式可以用于高等教育管理者的决策。数据预处理是一个重要的阶段在知识发现过程中,一旦质量决策必须基于质量数据[1]。这个过程中,早期应用于采矿时,可以大大提高开采模式的整体质量和/或所需的时间实际采矿[1]。

数据简化的目的是寻找最低的一组特性,由此产生的可能性分布的输出(类)尽可能接近原始分布获得使用所有功能。矿业减少的功能有增加的好处。它减少了数量的特征出现在发现模式,以帮助,让模式更容易理解。然后,它提高了分类准确性和学习运行时。第二部分解释了相关的特征选择方法,筛选方法,和包装方法。方法论和方法在第3节描述结果和结论分别为4和5节。

相关工作

特征选择过程,选择相关特性来构建模型的一个子集。特征选择是最重要的之一,在数据预处理在数据挖掘常用技术[1]。也有用的数据分析过程,因为它显示了哪些输入是重要的预测变量或特性,以及这些特性如何相关。特征选择对分类任务的目标是最大化分类准确性[2]。更容易选择比集群特性分类,分类后使用类标签信息。虽然,领域专家可以消除一些不相关的属性,选择最好的子集的特性通常需要一个系统化的方法[1]。

特征选择可以分为过滤方法和包装方法。过滤方法被定义为使用一些实际的数据来选择功能使用分类算法。熵措施作为特征选择的过滤方法用于分类[3]。包装方法分类算法应用到每个候选人特性子集,然后评估特征子集的阈值函数,利用分类的结果。此外,包装器方法可以结合贝叶斯推理机制分类技术,自动选择相关的特性。特征选择方法提供三个主要好处在构建预测模型如下:(1)模型改进显然是解释;(2)他们可以更短的培训时间;,(3)提高泛化减少拟合。

答:过滤方法

过滤方法在实际的分类过程。过滤器的方法是归纳学习算法的输入变量,计算简单和迅速扩展。使用过滤方法,特征选择是做一次后可以作为输入提供给不同的分类器[1]。各种特征选择技术和特性排名提供了如Correlation-based特征选择(CFS),获得比(GR)、卡方、信息增益等。

卡方[5]基于χ2-statistic和评估每个特性输入变量的类标签(输出)。卡方越大,越相关功能的类。间隔(I)的数量,获得类(B)的数量和总数量的实例(N),卡方值的特性计算如下:

(1)

在R_我意味着实例的数量在第i个区间;

B_j在j类实例的数量;和

一个_ij实例的数量在第i个间隔和j类。

信息增益[5],信息增益仪表信息的数量上涨约类预测当使用一个给定的特性来帮助预测[5]。为每个特性,获得分数基于多少信息获得的类是在使用这个功能。功能X的信息增益的定义是:

(2)

H (Y)和H (Y | X)意味着Y的熵和条件熵Y给X,分别。

功能基本是由水平多好类的熵减少,当被认为是单独与相关特性。

获得比[5]是一个改进信息增益。而信息增益支持功能,有大量的值,得到定量的方法是最少的数量而获得最大的特征信息增益的值。因此X的增益比定义为X的信息增益除以它的内在价值:

(3)

在哪里

习的| |是实例的数量,Xi的属性X的值;

r是X的不同值的数量;和

N是在数据集实例的总数。

b .包装方法

包装器方法,伊莎贝尔盖恩和安德烈Elisseeff[4]提供了一个简单而有效的方法解决变量选择问题,不管选择的学习机器。的方法学习机器借给使用货架机器学习软件包完成。一般配方,包装器方法在于使用给定的学习机器的预测性能评估的相对有效性变量的子集。

此外,在实践中,一个需要定义:(1)如何找到所有可能的变量子集的空间;(2)如何评估一个学习机器的性能预测来指导搜索和停止;和(3)预测器使用。一个详尽的搜索可能可以执行,如果变量的数量不是太大。此外,可以使用广泛的搜索策略,包括最佳优先,遗传算法和模拟退火(见[5],评论)。雷竞技苹果下载绩效评估通常是使用一套验证或通过交叉验证。见这个特殊问题,普遍预测因子包括朴素贝叶斯、决策树、支持向量机。

材料和方法

答:数据集和数据预处理

1)数据集

大学认为本文是在泰国主要的大学。在这个实验中使用的数据集获得研究生就业能力的数据库中的数据在三年学术规划部门的办公室,Maejo大学。第一个学年是2009,研究生就业能力从三度收集:学士学位的总数是3356,156年硕士和博士17人。2010年学年:学士学位的总数是3947,119年硕士和博士20。在最后一个学年是2010:学士学位的总数是4156,83年硕士和博士毕业生3。

2)数据预处理

吗?(今年):2009 (Y2009), 2010 (Y2010)、2011 (Y2011)

吗?性别(新闻界):男(M),女(F)

吗?住所(住所):76个省在泰国等Suratthani省(Suratthani),清迈省(ChingMai)等。

吗?学位(度):博士(博士),硕士(主人),学士学位(本科)

吗?在泰国工作省(WorkPro): 76个省如Suratthani省(Suratthani),清迈省(ChingMai)等。

吗?教育背景(ED):理学学士(BSc),园林学士(BLA),工程学士(大麻),英航经济学(BEcon),工商管理学士(BBA),哲学博士(博士),文学士(BA),农业技术学士(BSPlantScience),会计学学士(BAcc),政治科学学士(BPolSc),理科硕士(MSc),工商管理学硕士(MBA)、工程硕士(孟),医生的艺术(PhDArts),文科硕士(集市),技术(BTech)学士

吗?教师(isc):学院农业生产(FaOAgPr),管理(FaOAd),理学院(FaOSc)、工学院和农业产业的(FEnA)、高中——Phrae荣誉(HSPhr),高中——Chumphon (HScChu),管理科学学院(CoMaSc),学校可再生能源(屏幕),旅游发展(FOToDe),学院文理学院(FOLiBr),经济学(FaOEc),学院教师的渔业水产资源(FOFiAq),信息和通信学院(FaOInACo),建筑与环境设计学院(FaOArAEnDe)、动物科学与技术学院(FaOAnScATe)

吗?平均成绩(GPA):数值数据(1.00,2.50,…)

吗?天赋(TAL):外语(盒)、计算机(Comp),休闲活动(TReAc)、艺术(ART)、体育(斯波尔),表演艺术/音乐合唱(PAMC)没有(没有),其他(OT)

吗?职位(工作):国家官员/部门/国有企业(淤泥)公司/组织/私营企业(COPB),独立的业务/所有者(伊博语),员工的身体/国际(EBI),其他(OT),未指定(没有)

吗?寻找工作的时间长度(TFJ):未知(ν),毕业后找到一份工作(一旦),1 - 3个月(M13), 4 - 6个月(M46), 7 - 9个月(M79), 10 - 12个月(M1012),超过1年(Over1Y)工作之前和期间学习(bn)

吗?毕业和就业领域之间的匹配(加):匹配(Yes),不匹配(没有),未知的(联合国)

吗?所需学习(ReSt):需求(是的),不必要的(没有)

包括也响应因子称为状态(STA),可能需要一个失业的(一个),失业和研究(UnES),工作和学习(ES), (E)值。

b方法

这部分分为两个部分:第一部分,使用不同的方法来选择高度相关的特性,和第二部分包括应用-使用高度相关特性不同的数据挖掘技术为了毕业论文的准确性预测状态。在这个实验中使用的工具的怀卡托环境知识分析(WEKA)版本3.6.10免费是一个流行的套机器学习软件用Java编写的,新西兰怀卡托大学开发的。

1)特征选择

这个阶段是为了识别提供高度特性相关的13个属性的预测类标签。WEKA软件提供了大量的属性选择方法研究数据库的相关因素与反应特性有关。

我们的实验用交叉验证进行了10倍交叉验证下WEKA属性选择功能。函数(选择属性)组合不同的方法在两个不同的类别基础上显示下面的细节。

包装方法:每个特性的频率中选择10折交叉验证培训,我们使用。包装器方法,使用分类器+交叉验证评估属性集通过学习计划(分类器+交叉验证)。选择属性的基础上改进的预测能力带来的每个特性的结合。

筛选方法:每个属性提供的价值的指标排名因素的相关性。有四个这样的选择模型。

我们应用不同的数据挖掘模型在属性排名根据weight-relevance毕业状态预测因素,以确保在正确的比例分类情况下和混淆矩阵。

我们也使用三种不同的方式测试变量的模型来证实,有轴承模型预测能力。数据挖掘技术被用来构建模型预测属性变量的响应(研究生),贝叶斯网络。

贝叶斯网络:贝叶斯网络是有向无环图用于描述和预测的目的。他们node-and-arc网络结构提供了独立的信息/依赖关系由弧(描述)和因素(由节点描述)。对于我们的研究我们使用K2, hill-climber和褐色实现在WEKA网络训练算法,不同的数量限制的父母。我们也使用了特殊情况下的Baysesian网络,称为朴素贝叶斯,只是两个层次结构和单亲(响应变量)指向co-variables。网络训练的贪婪搜索可能的空间结构,最好的网络的基础上选择一个特定的拟合优度标准选择的算法[6]。

K2算法:该算法,它使用一个贪婪的搜索机制,从最简单的开始,可能网络,其中每个连续重复,被修改的新父母产生更大效益[6]根据预先设定的标准。

Hill-climber算法:该算法,这是一个离散的梯度下降(上升)算法,实现了一个本地搜索的重复。该算法具有初始网络,并确定nearestneighbor图,提高了网络,包括消除或反相图的弧。重复这个过程,直到没有邻居,改善当前的解决方案[7]。

谭算法;该算法首先构造树结构的属性,然后添加后的类变量中殿结构[8]。

实验结果

我们对每一个阶段的实验结果进行研究生高等教育数据库中历史数据列在下面。

不同的功能评价方法提供了相对相似的结果。过滤用卡方检验方法,信息增益和增益比率与朴素贝叶斯贝叶斯算法K2,贝叶斯算法Hill-climber,贝叶斯算法的高手。结果显示在表2。

先用最好的包装方法,遗传和贪婪逐步被用作随机搜索方法用不同的贝叶斯网络分类器即朴素贝叶斯、贝叶斯算法K2,贝叶斯算法Hill-climber,贝叶斯算法的高手。结果显示在表3。

表4显示了减少相关属性被不同的包装:谭遗传搜索+贝叶斯算法和最佳优先搜索+贝叶斯算法Tan改进验证步骤的不同分类器的分类精度。验证了使用四个分类器即朴素贝叶斯、贝叶斯算法K2,贝叶斯算法Hill-climber,贝叶斯算法的高手。

结论

至于结果使我们,使用不同的数据挖掘方法在贝叶斯网络中,为了确定方案支出和效率分析毕业生就业数据集确定最立即的对应属性和生成的预测成功率和准确率。计划执行的两个部分。首先,最重要的属性是预先选择使用各种方法。在我们的实验中,所有的方法产生了相似的精度的结果。本文的结果代表了一个重要的管理研究生就业能力的数据。与谭贝叶斯网络算法的满意的结果表明这些可靠的工具为研究生就业能力的研究及其精度。

确认

b . Jantawan Cheng-Fa蔡博士想表达感谢,管理信息系统部门的教授,热带农业和国际合作的部门,国立屏东科技大学在台湾支持优秀奖学金,并高度赞赏奈良Phongphanich先生和规划部门办公室,Maejo在泰国大学给的信息。

表乍一看


表1	表2	表3	表4

数据乍一看

图1

引用

亚莎高达Karegowda,硕士Jayaram响亮的希,“特征子集选择问题使用包装器方法监督式学习”,国际期刊《计算机应用,1卷,7号,第8887 - 0975页,2010年。

Ron Kohavi乔治·h·约翰,特征子集选择“包装器”,人工智能,97卷,1 - 2。273 - 324年,1997页。

短跑、m和h . Liu“分类特征选择”,智能数据分析,1卷,第156 - 131页,1997年。

盖恩Elisseeff安德烈,伊莎贝尔介绍变量和特征选择,机器学习研究期刊》的研究,3卷,第1182 - 1157页,2003年。

库珀G.F. Herskovits,电子,“Bayesian method for the induction of probabilistic networks from data”, Machine Learning, Vol. 9, No. 4, pp. 309-47, 1992.

Nocedal, j·赖特,中华民国,“Numerical optimization”, Springer, 1999.

弗里德曼,N。,Geiger D. and Goldszmidt, M., “Bayesian network classifiers”, Machine Learning, Vol. 29, No. 2-3, pp. 131-63, 1997.