关键字 |
教育数据挖掘、学业成绩、高等教育、预测、分类、多层感知器 |
介绍 |
教育数据已经成为一个重要的资源在这个现代时代,贡献社会的福利。教育机构正变得更有竞争力,因为机构的数量迅速增长。维持下去,这些机构更多关注改善各个方面,其中一个重要的因素是学习质量。提供素质教育面临新的挑战,这些机构需要了解他们的潜力,明确哪些是隐藏的。今天的教育机构背后的真理被隐藏大量的知识。竞争,机构应确定自己的潜力隐藏和实施技术将出来。近年来,教育数据挖掘放在一个庞大的识别研究领域内,因为它已成为一个重要的学术机构需要提高教育质量。 |
高等教育机构的潜在知识,比如学习成绩的学生,管理账户,潜在的教师知识、人口学生和许多其他的细节信息在一个隐藏的表单。提取隐藏背后的技术知识是知识发现的过程。最近在教育数据挖掘是广泛使用的数据集。教育数据挖掘(EDM)已成为一个非常有用的研究领域[1]。数据挖掘可以从可用的数据中提取知识,应该创建知识情报机构的利益。高等教育学生的学业成绩进行分类。有很多因素会影响学生的学业表现。模型[2]的研究主要集中在探索各种指标对学生的学业成绩产生影响。提取的信息,描述了学生成绩可以作为智能知识存储决策机构提高教育质量。用于存储的知识提前预测学生的表现。 |
EDM可以被视为一个学习科学,以及数据挖掘的[3]。研究者应用教育数据挖掘问题与发展中发现知识的方法从数据来自教育领域和用于分析的学习行为。一些数据挖掘的好处在教育部门确定学生的偏好对课程的选择,他们的选择专业化和预测学生的知识,成绩,最终结果[4]。高等学校(IHL)类似于企业知识,在参与知识创造,传播和学习[5]。然而,商业世界的人们都关心利润他们可以获得利用知识通过公里的实现而IHL认为公里可以提高服务的质量交付和持续竞争优势在学术世界[6]。 |
小说本文试图研究数据挖掘的高等教育领域关注的预测精度分析学生的学业成绩只使用影响因素由多层感知器算法和比较它与学生的学业成绩的预测准确性使用一个数据集包括所有学术,个人和经济因素的学生使用多层感知器算法。第二节给出了数据挖掘技术的概述可以提取隐藏信息。第三节提供了通用的数据和细节在研究神经网络和各种功能相关。第四节预测结果通过多层感知器算法使用所有可能的因素确定的学生数据集和高的影响因素。结论和讨论未来的工作是在最后一节。 |
答:相关工作 |
兹拉特科·j·Kovacic和约翰·史蒂文绿色,预测学生的学业成绩使用各种属性,如性别、父母教育、经济背景等[7]。M.N.表示“四”与喷嘴速度Kalyankar解释说,以前的学术的结果起着关键任务来预测学生的威胁是考试失败[8]。Bhardwaj &朋友对学生成绩进行的一项研究中300名学生。17日通过贝叶斯分类方法的属性,指出影响因素如年级在高中考试,教学中,居住地点,母亲的资格,其他习惯,收入和家庭地位起着至关重要的作用在学生学业成绩[9]。研究人员对600名学生进行了一个研究学生成绩[10]。属性的类别、语言和背景资格被用来预测学生的表现。Hijazid纳,对学生成绩进行的一项研究通过选择一个样本的300名学生(225,75)。研究表明,“学生的出勤率,小时花在研究中,家庭收入和母亲的教育与学生成绩显著相关”使用线性回归[11]。 |
研究人员使用的数据挖掘分类技术来提高高等教育的质量系统评估学生的数据,可能会影响学生的表现课程[12]。他们用三种不同的分类方法ID3、C4.5和NaiveBayes。结果表明,决策树模型有更好的预测精度比其他模型。z . j . Kovacic教育数据挖掘在2010年提出了一个研究来确定在多大程度上报名数据可用于预测学生的成功[13]。所使用的算法CHAID和购物车。研究人员应用数据挖掘分类技术在提高学生的表现从最后学期中提取知识的发现马克[14]。 |
默罕默德·m·阿布Tair和阿拉m . El-Halees发现知识的数据挖掘应用的数据来自教育环境[15]。学生的数据已经收集科技学院的15年期间(1993 - 2007)。收集到的数据预处理和数据挖掘技术应用于提高研究生的性能,克服研究生成绩低的问题。Muslihah w,将人工神经网络和聚类的组合预测和分类决策树分类技术对学生的学业成绩。学生的数据收集从马来西亚国防大学的数据(NDUM) [16]。Ian和h·w·f·Eibe给一个案例研究,教育数据挖掘用于识别行为失败的学生在期末考试前的风险[17]。 |
阮N,而决策树和贝叶斯网络算法的准确性预测学生的学业表现在研究生和研究生的学生。提供的决策树分类器精度比贝叶斯网络分类器[18]。Ramaswami m和Bhaskaran R,构造了一个预测模型使用772与第七班学生记录响应变量通过使用高度影响的预测变量通过特征选择[19]。的准确性存在模型与其他模型相比,它被发现是令人满意的。研究人员进行了一项研究的数据集大小50 MCA学生挖掘教育数据来分析学生的表现。决策树方法用于分类和预测学生的性能[20]。不同措施,不考虑经济背景、技术风险等。Bengio y,讨论了神经网络适合数据丰富的环境,通常用于提取嵌入知识规则的形式,定量评价的这些规则,集群、自组织、分类和回归[21]。神经网络有优势,在其他类型的机器学习算法,扩展。 |
数据挖掘 |
数据挖掘也称为数据库中知识发现(KDD)中提取或“挖掘”知识是指从大量的数据。2001年汉& m . Kamber称为知识发现过程包括数据清洗等各个步骤,转换、数据挖掘、模式评估从数据中提取知识[22]。知识发现参与多种任务,比如协会、聚类、分类、预测等。分类和预测函数用于创建模型所构造的分析数据,然后用于评估其他数据。聚类是一种识别相似的类的对象。协会主要用于大型数据集之间的联系频繁项目集。 |
只涉及两个步骤分类。在第一步中,一个模型,描述了一个预先确定的组类或概念是由检查一组训练数据集。学习被称为监督学习的类标签的所有记录的数据集是已知的。模型通常是在分类规则或决策树的形式。在第二步中,模型试验使用不同的数据集,用于估算模型的预测精度。各种方法如抵抗,随机子抽样,k-fold交叉验证、分层交叉验证、引导是用来估计模型的准确性。如果模型被认为是可接受的准确性,该模型可用于分类的数据集类标签提前不知道[22]。 |
基本的技术决策树归纳分类,贝叶斯分类和神经网络。其他方法,如遗传算法、粗糙集、模糊逻辑、基于案例的推理也可以用于分类。决策树分类器是一个功能强大的和受欢迎的分类和预测技术(乔杜里,1998)。一些决策树分类器J48, NBTree, ID3,购物车,REPTree Simplecart、BFTree等。决策树是一种类似流程图的树结构,其中每个内部节点表示在一个属性上测试,每个分支代表一个测试和叶节点代表用例的结果或类分布[22]。 |
贝叶斯分类器是统计分类器。朴素贝叶斯算法是一个简单的概率分类器,计算一组概率通过计算值的频率和组合在一个给定的数据集。在一个NBTree,当地一个朴素贝叶斯部署在传统决策树,每片叶子和一个实例是使用当地的朴素贝叶斯分类的叶落。树种植后,朴素贝叶斯构造为每个使用数据与叶叶子。一个NBTree分类排序这一片叶子和一个例子应用朴素贝叶斯的叶分配一个类标签。 |
人工神经网络-安 |
神经网络是一种生物模拟计算模型。神经网络用于大量的应用程序和已被证明是有效地执行复杂的功能在不同的领域。这些包括模式识别、分类、愿景、控制系统和预测[23]。神经网络有两个主要组件称为处理元素和它们之间的连接。处理元素表示神经元。神经元之间的连接称为链接。每个环节都有自己的体重与之关联的参数。安由一个输入层、输出层和至少一层非线性处理的元素,称为隐藏层。网络接收的输入值从输入层到隐层到输出层。输入值的处理完成在各个节点的输入层,然后输出值是转发到隐层节点。 The values obtained as inputs by the hidden layer nodes are processed within them and forwarded to either the nodes of the next hidden layer or nodes of the output layer. |
神经网络是一个网络的学习能力从它的背景和通过学习改善其性能。学习的过程可以分为监督监督和管理。监督学习是训练神经网络训练集和迭代调整网络参数,网络被训练来产生所需的输出对于任何给定的输入。在无监督学习没有训练集监督学习过程。这里所需的网络学习本身,应该产生所需的输出对于任何给定的输入数据并自动创建新类。单层感知器,多层感知器(MLP),学习机,支持向量机(SVM),再邻居(资讯)的一些众所周知的监督学习算法和k - means,自组织映射(SOM),自适应共振理论(ART)的无监督学习算法。 |
中长期规划-多层感知器算法是一种使用最广泛、共同监督神经网络方法。多层感知器是一个前馈人工神经网络模型训练与标准反向传播算法映射的输入数据集到一个可接受的输出的集合。一个延时由多个层的节点在一个有向图,每层完全连接到随之而来的一个。这些监督网络,所以他们需要训练所需的响应。他们学习如何将输入数据转换成所需的响应,因此被广泛用于模式分类和预测。 |
方法 |
性能分析的数据集用于这项研究是取自PG计算机应用课程提供的一门艺术和科学学院在2007年和2012年之间。数据收集的165名学生。学生个人和学术信息连同他们的出勤率收集学生的信息系统。收集到的信息集成到一个不同的表。学生的数据集包含各种属性理论成绩、实验室分数,媒介研究,UG,家庭收入、父母的教育,第一代学习者,留下来,课外活动等在不同属性最初使用x平方分布等特征选择技术,信息增益,增益比,相关性和回归结果发现,高属性造成性能的影响的学生是理论,媒介的研究,以前的课程学习,UG百分比,留下来,课外活动和家庭收入[2]。影响选择属性,用于分类和预测学生成绩使用weka数据挖掘工具。 |
Weka(怀卡托环境知识分析)是一个流行的机器学习套件软件用Java编写的,新西兰怀卡托大学的发展,。Weka软件是一个免费的GNU通用公共许可证下可用。Weka工作台包含一组数据分析和可视化工具和算法预测模型,结合图形用户界面,方便地访问此功能。Weka工具包含了许多包包括过滤器、分类、集群、协会、和属性选择。weka允许数据集的可视化工具,以图文并茂的形式分类器的预测。Weka是机器学习算法的集合为解决现实世界的数据挖掘问题。它是用Java编写的,几乎任何平台上运行。算法可以直接应用于一个数据集或从自己的Java代码。在Weka数据集应该格式化的飞机救援消防的格式。165条记录的初始数据集被分成两组。 Two thirds of the data are allocated to the training set and the remaining one third is allocated to the test set. The training set help in building the model and it is used for classification. For estimating classifier accuracy k-fold cross-validation is used. Training and testing is performed k-times. The accuracy estimate is the overall number of correct classifications from the k iterations divided by the total number of samples in the initial data[22]. |
分类面板在weka工具便于分类算法和应用于估计预测模型的准确性。在不同分类器的ID3、J48 NBTree, RepTree,多层感知器(MLP) SimpleCart研究和决策表模型[24]表明,中长期规划学习算法被证明是最好的。本研究的目的是证明发现高属性造成性能的影响的学生使用特征选择[2]是真的,证明MLP分类器是最好的其他替代分类算法[24]。本研究通过比较学生的预测结果进行中长期规划使用的12个属性家庭收入、父母教育,以前的课程学习、UG百分比,第一代学习者,留下来,城市,研究媒介出席,理论标志、课外活动、实验室标志和标识的学生成绩预测的7高中长期规划影响因素用最好的学习算法。专注于研究模型预测精度的分析学生的学业成绩只有影响因素的数据集使用多层感知器算法和比较它与学生的学业成绩的预测准确性使用一个数据集,包括所有学术、学生的个人和经济因素。 |
结果与讨论 |
165条记录的学生数据集的所有12个属性包括个人、学术和经济(家庭收入、父母教育、以前的课程学习,UG百分比,第一代学习者,留下来,城市,研究媒介出席,理论标志,课外活动,实验室标志)分成两组组成的三分之二作为训练集和三分之一为测试组。训练集用于构建模型和测试集是用来估计分类器的准确性,如果它是可以接受的,那么它是用来预测未知数据的类标签。延时是数据挖掘分类算法研究选择通过weka。数据集分为5集(火车)不同的2/3的记录和5套(测试)不同的三分之一的记录。这些集合分别用于通过Run5 Run1。在每次运行,3组新数据的类标签不明给出预测。因为我们使用三个不同的新的预测数据,平均3结果被认为是为每个运行。因为我们有5个训练数据集和测试数据集得到5的结果。 |
图1显示了一个示例的预测结果数据集的所有14属性使用延时通过weka。实验进行了用5种不同的训练数据集的5种不同的测试集用MLP分类算法。在每次运行,3组新数据的类标签不明给出预测结果列表如下表1所示。 |
图2显示了数据集的预测结果通过weka使用延时与高影响的属性。实验重复使用上述过程的数据集使用只有7个属性(家庭收入,以前的课程研究,UG百分比,留下来,介质的研究,理论标志,课外活动)。8日属性在图2代表未知的“结果”属性,是预测的算法。实验进行了用5种不同的训练数据集的5种不同的测试集用MLP分类算法。在每次运行,3组新数据的类标签不明给出预测结果列表如下表1所示。 |
表1显示了MLP分类算法的预测精度在比例不同的数据集,即只与所有属性和属性有高影响力。在每次运行,3组新数据的类标签不明了的预测,平均3的结果被认为是百分比。表2显示了预测计算的平均百分率高5只运行使用的所有属性和属性的影响。 |
结果表明,具有高影响属性的数据集显示预测百分比比与所有属性的数据集。这表明属性很高影响原始数据集的属性。 |
图3显示了预测精度的比较使用具有不同属性的数据集使用MLP分类数据挖掘算法。结果表明,预测数据集的百分比高影响属性的行为都可能是训练和测试数据。预测百分比的变化对不同运行所有属性的数据集是52%左右,高影响属性的数据集是33%左右。这表明属性识别研究中几乎高影响因素在预测学生成绩。 |
结论 |
这个模型主要集中在分析学生的学业成绩的预测精度仅使用影响因素由多层感知器算法和比较它与学生的学业成绩的预测准确性使用一个数据集包括所有学术,个人和经济因素的学生使用多层感知器算法。本文证明了属性选择从原始数据集使用延时很高的影响力。本研究论文帮助机构事先知道学生的学术地位,可以专注于薄弱的学生提高他们的学术成果。这项研究可以结合两个或两个以上的算法更好的预测或新算法可以开发更好的分类和预测使用高属性将会影响未来的工作。 |
表乍一看 |
|
|
表1 |
表2 |
|
|
数据乍一看 |
|
|
引用 |
- 贝克R.S.J.D.,&Yacef K, “The state of educational data mining in 2009:A review and future vision”, Journal of Educational Data Mining, I, pg. 3-17,2009.
- 洁Ruby和k . David”模型在各种指标的影响研究学生在高等教育”的表现,IJRET国际杂志》的研究在工程和技术,3卷,问题5,pp.750 - 755, 2014年5月。
- 莫妮卡Goyal&RajanVohra,“数据挖掘在高等教育中的应用”IJCSI国际计算机科学杂志的问题,9卷,问题2,没有1,pp.130 - 120, 2012年3月。
- 穆罕默德Maqsood阿里,“计算机科学和移动计算国际期刊”,高雄问题。4、pg。374 - 383年4月- 2013。
- 罗利,J。,“Is higher education ready for knowledge management?”,International Journal of Educational Management, vol. 14(7), pp. 325–333, 2000.
- Lubega, j . T。Omona, W。,&Weide, T. V. D., “Knowledge management technologies and higher education processes_: approach to integrationfor performance improvement”, International Journal of Computing and ICT Research, vol. 5(Special Issue), pp. 55–68, 2011.
- 兹拉特科·j·kovacic约翰•史蒂文绿色“预测工作的工具'风险'学生”的早期识别,新西兰,2010年。
- Quadril.M。n博士Kalyanka喷嘴速度,” Drop Out Feature of Student Data for Academic Performance Using Decision Tree”, Global Journal of Computer Science and Technology Vol. 10 Issue 2 (Ver 1.0), April 2010.
- 巴拉。B。K &美国朋友。“数据挖掘:预测性能改进使用分类”,国际计算机科学与信息安全杂志(IJCSIS), 9卷,4号,第140 - 136页,2011年。
- Pandey U。K。朋友,“数据挖掘预测表演者或表现最差的使用分类”,IJCSIT国际计算机科学与信息技术、杂志卷。2 (2),pp.686 - 690, ISSN: 0975 - 9646年,2011年
- Hijazi s T。&。纳r . s . M . M”因素影响学生的表现:私立大学”的情况下,孟加拉国社会学电子期刊,3卷,1号,2006年。
- Al-Radaideh Q。,Al-Shawakfa E., & AI-Najjar M., “Mining Student Data using Decision Trees”, In Proceedings of the International Arab
- 会议信息技术(ACIT耶大学2006)、约旦、2006。
- Kovacic z . J。,“Early prediction of student success: Mining student enrollment data”, Proceedings of Informing Science & IT Education Conference 2010.
- ShanmugaPriya。K, &Senthil Kumar A.V.,“Improving the Student’s Performance Using Educational Data Mining”, 2013.
- 穆罕默德·m·阿布Tair&Alaa m . El-Halees”,挖掘教育数据来提高学生的表现:一个案例研究”,2012年
- Muslihah W。,Yuhanim Y., Norshahriah W., Mohd Rizal M., Nor Fatimah A., &Hoo Y. S., “Predicting NDUM Student’s Academic
- 使用数据挖掘技术性能”,《第二计算机与电子工程国际会议上,IEEE计算机协会,2009。
- 伊恩·h·w·&Eibe F。,“Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations,” California: Morgan Kaufmann, 2005
- 阮N。保罗·J。,& Peter H., “A Comparative Analysis of Techniques for Predicting Academic Performance”, In Proceedings of the 37th ASEE/IEEE Frontiers in Education Conference.pp. 7-12, 2007.
- Ramaswami M。,&Bhaskaran R., “CHAID Based Performance Prediction Model in Educational Data Mining”, IJCSI International Journal of Computer Science Issues, Vol. 7, Issue 1, No. 1, 2010.
- Brijesh Kumar Baradwaj&Saurabh朋友”,挖掘教育数据来分析学生的表现”,IJACSA,第二部,6号,2011
- Bengio Y。,Buhmann J. M., Embrechts M., &Zurada J. M., "Introduction to the special issue on neural networks for data mining and knowledge discovery," IEEE Trans. Neural Networks, vol. 11, pp. 545-549, 2000.
- 汉族。J &Kamber。M,“数据挖掘概念与技术”,旧金山,美国摩根考夫曼,2001年。
- Fausett, L。,“Fundamentals of Neural Networks”, Prentice-Hall, Englewood Cliffs, NJ, 1994.
- 洁Ruby和k . David”预测学生在高等教育的性能使用数据挖掘分类算法——一个案例研究”,IJRASET国际期刊研究在应用科学和工程技术,2卷,XI, ISSN号2321 - 9653,2014年11月。
|