关键字 |
数据挖掘,分类,预测,朴素贝叶斯算法(NB),学生评价 |
介绍 |
许多领先的高等教育和技术教育机构的目标是为提高高等教育质量做出贡献,人力资本的成功创造是一个不断分析的课题[1]。因此,预测学生的成功对于高等教育和技术教育机构来说是必不可少的,因为教学过程的质量是满足学生需求的能力。在这个意义上,定期收集重要的数据和资料,由有关当局审议,并制定标准以保持质量。通过对图1中高等教育系统分贝数据进行数据挖掘,教育过程中的所有参与者都能从中受益。不同视角下的计算数据处理是数据挖掘的代表,目的是从数据中提取隐含的、有趣的样本、趋势和信息,它能极大地帮助教育过程中的每一个参与者,以提高对教学过程的理解,其核心是发现、发现和解释教育现象的[1]。 |
大多数研究者建议以学业成绩[3,4]作为评估申请人资格的良好基础。通过对现有的录取和毕业平均绩点数据进行数据挖掘,可以建立成绩预测模型。幸运的是,AIT拥有一个关于过去和现在申请人的大型数据库。[2]。建立决策支持系统,帮助辅导员指导学生选择合适的课程和合适的学习计划[5,6]。以前关于学生成绩预测的工作使用逻辑回归来检验各种因素对学生成绩的影响[5]。Bekele和Menzel[7]使用贝叶斯网络预测高中生的数学成绩。他们的模型将学生分为三类:不满意、满意和满意以上。本文报道的工作与他们的不同之处在于申请人池的高度国际化性质和更细粒度的预测[2]。 |
在本文中,我们提出了一种使用贝叶斯网络来预测毕业累积平均绩点的方法,该方法基于2010-2011学年在图兹拉大学经济学院夏季学期进行的调查中收集的申请人数据,在一年级学生和入学期间采集的数据。贝叶斯预测模型可以为系内教职工决策提供有价值的信息。如果系统能向他们展示与正在考虑的申请人最相似的过去的学生,他们可能会对预测结果更满意。本文比较了几种适合于分类的数据挖掘技术:贝叶斯分类器、神经网络和决策树。神经网络在许多领域都成功地解决了预测、逼近、函数、分类和模式识别等问题。它们的准确性与决策树和贝叶斯分类器进行了比较。结果表明,Naïve贝叶斯分类器在预测决策树和神经网络方法上都有较好的表现。它还表明,一个好的分类器模型必须是准确的和可理解的教授。 |
数据描述 |
该模型的数据是通过2010-2011学年图兹拉经济学院夏季学期在一年级学生中进行的问卷调查收集的。在排除不完整数据后,样本包括257名学生,他们当时正在练习课上进行研究。建立学生成功模型,成功作为输出变量,以“Business Informatics”课程[1]中的成功来衡量。 |
使用12个变量作为模型的输入,其名称和编码如表1所示。“商业信息学”课程期末学生的成绩分布如图2所示。很明显,第一种情况下,由于年级分布的不同,预测错误率会高得多;因此,本研究的第二个案例具有优势。 |
数据挖掘方法 |
数据挖掘是一种处理数据的计算方法,它成功地应用于许多领域,旨在从数据中获取有用的知识。分析的目标是按类对数据进行分类,然后是关于数据所属类的新信息。为了做到这一点,算法被分为两个基本组: |
无监督算法和 |
监督算法。 |
当输出条件在数据集中没有显式表示时,挖掘是“无监督的”或“无向的”:无监督算法的任务是自动发现数据中固有的模式,而不涉及数据属于哪一类的先验信息,它不涉及任何监督[11]。 |
监督算法是指利用预先熟悉数据所属类别的数据建立模型,然后在构建的模型的基础上预测未知数据所属类别的算法。数据分类方法表示学习将数据映射到几个预定义类之一的函数的过程。对于每一种基于归纳学习的分类算法,都给出了由属性值向量及其对应类组成的输入数据集。分类技术的目标是建立一个模型,使其能够基于一组特定的特征以自动化的方式对未来的数据点进行分类。这样的系统将一组用例作为输入,每个用例都属于少数类中的一个,并由它的值描述为一组固定的属性。作为输出,它们采用一个分类器,该分类器可以准确预测新案例所属的类别。最常见的分类方法有:决策树、归纳规则或分类规则、概率网络或贝叶斯网络、神经网络和混合程序。 |
朴素贝叶斯算法 |
贝叶斯网络[8]是概率分布的图形表示。它是一个有向无环图,其中节点表示随机变量,链接表示变量之间的概率影响。概率依赖性和独立性是通过图[2]中节点之间是否存在路径来表示的。以这种方式编码在网络拓扑中的概率依赖的事实允许在大量随机变量上的概率分布被紧凑地表示,并允许有效地执行计算。由于性能预测问题固有的不确定性,我们选择使用贝叶斯网络进行建模任务。使用概率模型的优点是,它以后可以成为更高级别优化模型的组成部分。 |
朴素贝叶斯算法(Naive Bayes algorithm, NB)是一种基于概率论的简单分类方法,即贝叶斯定理[10]。它被称为naïve,因为它依赖于两个重要的假设来简化问题:它假设预后属性与熟悉的分类是条件独立的,并且它假设没有隐藏属性。这可能会影响预测的过程。该分类器是一种很有前途的知识概率发现方法,为数据分类提供了一种非常有效的算法。 |
实验结果 |
我们在新西兰怀卡托大学开发的WEKA软件包上进行了实验。这个包已经在软件语言Java中实现,今天在学术和非营利领域中脱颖而出,可能是最有能力和最全面的机器学习算法包(怀卡托大学机器学习组,2011年)。 |
为了更好地了解输入变量的重要性,通常会分析输入变量在学生预测成功过程中的影响。分析了模型中某些输入变量对输出变量的影响。采用四项检验对输入变量进行评估:卡方检验、One r检验、Info Gain检验和Gain Ratio检验。使用以下指标监测每个测试的结果:属性(属性的名称),Merit(优度度量),Merit dev(偏差,即优度度量偏差),Rank(属性占用的平均位置),Rank和dev(偏差,偏差占用属性的位置)。使用这些值得到的结果如表4所示。 |
在这个聚合表中,“Merit”列不适用,因为算法使用相互不兼容的度量。这种分析的目的是确定每个属性的重要性。表4。结果表明,属性PO (GPA)对输出的影响最大,在四种测试中表现最好。然后是这些属性:URK(入学考试),MAT(学习材料),VRI(每周平均用于学习的时间)。以下属性对输出影响最小:BCD(家庭成员数量)、UAS(居住距离)和S(性别)。 |
我们进行了一些实验,以评估NB分类算法在预测学生成功方面的性能和有用性。实验结果汇总如表5、6、7、8所示。NB模型的性能基于预测精度、学习时间和错误率三个标准进行评估,如图4、5、6所示。 |
从结果来看,Naïve Bayes具有更好的预测能力。实验中采用NB分类器,NB算法的准确率最高。Naïve贝叶斯和决策树分类器在为给定数据集建立模型的时间内学习得更快。 |
学习技术的性能高度依赖于训练数据的性质。混淆矩阵对于评估分类器非常有用。列表示预测,行表示实际的类别。为了评估分类器的鲁棒性,通常的方法是对分类器进行交叉验证。一般来说,交叉验证已被证明在统计上足够好地评估分类器的性能。好的结果对应于主对角线上的大数和非对角线上的小(理想为零)元素。 |
在教育问题中,得到的分类模型是否易于使用也是非常重要的,这样教师才能做出决策来提高学生的学习。尽管如此,有些模型比其他模型更容易解释。决策树被认为是容易理解的模型,因为每个结论都有一个推理过程。在这种范式下的知识模型可以直接转化为一组IF-THEN规则,这些规则是最流行的知识表示形式之一,因为它们简单易懂,教授很容易理解和解释(图2)[1]。 |
模型(图2)很容易理解。该模型通过分析学习成绩相近的学生的经历,可以为教师提供学生的有趣信息,并指导教师选择合适的轨道。 |
结论及未来工作 |
在本文中,我们提出了有监督的数据挖掘算法,将朴素贝叶斯(NB)算法应用于术前评估数据来预测课程的成功与否(通过或失败),并根据其预测准确性、学习的便利性和用户友好性来评估学习方法的性能。 |
结果表明,Naïve贝叶斯分类器在预测决策树中表现较好,说明一个好的分类器模型必须既准确又易于教授理解。本研究基于传统的课堂环境,因为数据挖掘技术是在数据收集后才应用的。研究结果表明,该方法可以帮助学生和教师提高学生的学习成绩;在适当的时间采取适当的措施,提高学习质量,降低不及格率。如何获得对教授或非专家用户友好的预测模型,以及如何将高校数据采集系统与数据挖掘工具相结合,是一个重要的问题。 |
|
表格一览 |
|
|
数字一览 |
|
|
参考文献 |
- edinosmanbegoviic, mirzasuljiic,“预测学生表现的数据挖掘方法”,经济评论-经济与商业杂志,第X卷,第1期,2012年5月。
- 阮氏Ngoc Hien和Peter Haddawy,“评估国际学生申请的决策支持系统”,第37届ASEE/IEEE教育前沿会议,2007。
- Hadkkinen I.,“大学入学考试能预测学术成就吗?”,工作文件系列,乌普萨拉大学经济系,2004年。
- Golding P., Donaldson O.,“预测学业成绩”,第36届ASEE/IEEE教育前沿会议论文集, 2006, 21-26。
- 乔杜里A. A.,“用逻辑回归预测初级计算机课程的成功”,计算机科学ACM会议, 1987, p449。
- 戴凯塔,高德史密斯,“贝叶斯顾问计划”。
- Bekele R., Menzel W.,“一种贝叶斯方法预测学生表现(BAPPS):以埃塞俄比亚学生为例”,人工智能与应用国际学术会议,2005。
- Jensen F., <贝叶斯网络与决策图>,施普林格- Verlag, 2002年。
- Klosgen, W. &Zytkow,《数据挖掘和知识发现手册》,牛津大学出版社,纽约,2002年。
- Witten, I.H. & Frank E.“数据挖掘-实用机器学习工具和技术,第二版”,MorganKaufmann,旧金山,2000年。
- 齐奥斯(K.J. Cios, Pedrycz W., Swiniarski, R.W. & Kurgan,洛杉矶),“数据挖掘:一种知识发现方法”,施普林格,纽约,2007。
- 库马尔。A. &Vijayalakshmi M. N.,“决策树在预测学生学习成绩中的有效性”,第一届计算机科学,工程与应用国际会议,第2期,迪拜,第335-343页,2011。
- Romero, C. & Ventura, S.,“教育数据挖掘:从1995年到2005年的调查,专家系统与应用”,Elsevier,第135-146页,2007。
|