所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

实证比较研究一些监督方法

Boshra f . Zopon AL_Bayaty1Shashank Joshi博士2
  1. 计算机科学系,Yashwantrao Mohite大学,一代诗人Vidyapeeth大学AL-Mustansiriya大学,伊拉克的巴格达
  2. 计算机工程系,工程学院,一代诗人Vidyapeeth大学浦那(印度马哈拉施特拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

词义消歧的帮助下解决了各种数据挖掘方法与朴素贝叶斯方法,决策列表,决策树,SVM(支持向量机)。这些方法有助于找出正确的词的意义通过引用WordNet 2.1。实验进行探讨与比较SVM算法的各种方法。在这项研究中决策列表在所有其他方法取得最好的结果。



关键字

支持向量机、朴素贝叶斯决策列表,决策树,监督学习方法,Senseval-3, WSD WordNet。

介绍

自然语言处理研究词及其意义的角色从有意义的语言。大多数为每个系统这个词作为输入。而推断意味着,如果系统曲解它整个系统会受到影响。这就是为什么WSD是极其重要的正确推断出单词的含义根据用户或机器的感知插入它。
词义消歧任务识别正确的词的意义通过使用一些算法的帮助下或其他方法[1]。完成这个过程系统训练识别正确的结果的意义词根据多个地图”这样的词语。地图是地理表示特定的地方或是两项之间的关联(映射)。所以问题陈述是识别给定单词的意思按用户的要求[2]。

背景和相关工作

许多研究人员造成了这一领域的消歧。有各种各样的方法来完成这项任务的消歧。
•支持向量机是生成一个hyperplan多维空间分离,分离他们按照类别或团体。距离最近的计划被称为支持向量[3]。
•朴素贝叶斯方法是一种利用条件概率计算后验概率。天真的分类器是提取特征依赖性的一部分。假设没有依赖的特点提取[4]:
图像
地点:
F1, F2特性
C是类别。
•决策树处理实验中获得的信息。决策树在处理从上到下,从根到叶。如果长度或树高数据存储或信息增益的概率相对较高。这也计算错误率的熵。最大熵最小将准确性和亦然[5]。
•决策列表工作条件(if - else)结构。如果条件满足访问节点处理数据否则离开它。重复这个过程,直到所需的数据或条件不满足[6]。
这些方法和他们的比较探讨了基于实验执行,以满足目标使用有效的词义消歧方法的实证检索的信息。

动机

解决前面讨论的挑战树脂努力是必需的,因为每一个方法铣刀盘部分或其他缺点。下图表示支持向量机方法在本文中实现:
在x和y是不同类别的数据实例是分开的。所以进行这个实验的动机是提高整体精度,解决词义消歧,考虑分类器,将培训数据库和正确识别单词的意义的总列表的含义。这个任务是由上下文来解决歧义。

实验装置

数据

实验是由使用WordNet存储库,10 5名词和动词[7]。知道意义的准确性上下文设计遵循senseval规范。这种表示是由使用XML表示。算法和上下文的帮助下计算数据库中提到的词的意义。来完成这项任务使用半结构式和非结构化表示,由于延迟;这是需要存储和检索数据数据库[8]。

实现监督机器学习技术

识别的意义词使用两种类型的技术,监督,无人监督的技术。如果数据是确定的最佳频率发生那是无监督的方法;但是我们不能完全的所有时间继电器无监督的方法,因为这意味着很可能根据上下文使用和感知。监督技术,因为系统训练的一些定义上下文预测意义基于周围的词。他们的预测与合适的数据挖掘算法,maide朴素贝叶斯、决策树算法,决策列表算法和支持向量机。这些算法是弹药和经验实现本文比较分析准确性的基础上,算法来预测意义。

朴素贝叶斯

朴素贝叶斯方法适用于条件概率。在某些方法,它提供了更好的结果在其他方法不提供适当的结果。
很少有分数,朴素贝叶斯提供更好的结果,这些前三的结果根据精度是:{名称:1000年,世界:1000天:1000}。
朴素贝叶斯算法的性能在某些情况下并不满意的最低三个这样的病例:{崇拜:414、信任:167,帮助:414}
朴素贝叶斯算法的总体准确性(58.32%)需要改进找到正确但期望词[9]。

决策树

决策树是基于存储节点的结果或意义。作为数据集WSD而言,我们是指总体决策树并不是令人满意的精度。
总体精度(45.14%)。
虽然整体决策树的准确性不及格但少数情况下,给予更好的结果,这样的顶级2例:{名称:1000年,世界:1000}。相反,有一些性能结果并不满意这样的最低三个案例:{信任:167天:109年,帮助:125}[10]。

决策列表

讨论的方法,所以对于决策列表提供了更精确的结果形成如果梯子。效率和准确性将指出很少有更好结果的情况下面提到:{赞美:1000,名字:1000年,世界:1000年,耶和华说:1000年,补偿:1000天:1000}。
虽然整体精度更好的决策列表有一些情况下,性能是根据预期是不满意的是如下:
{喜欢信任:167,帮助:125:250年,路径:333}[11]。

支持向量机

支持向量机技术的多维空间中的数据分离超平面的帮助。这种分离是创建超平面之间的距离最大化数据实例位于边缘。如果我们观察工作的SVM仔细观察,几乎很难小人物数据实例很明显,所以这个缺口被称为松弛。这个缺口是最大化分离数据实例和分类一个标题下。支持向量机是一个想法的例子二元分类器但词义消歧时性能或结果不及格。
这样的前4“4例”,结果在下面提到的选择:
{名称:1000年,世界:1000,导游:1000:1000}。
在某些情况下支持向量机算法的性能并不满意的最低三个这样的病例:{信任崇拜:414,主:431年,167年,路径:318年,青睐:250帮助:125}[12]。

结果

消歧执行本文通过四监督方法,使用WordNet和Senseval-3。表(1),显示了四种方法的结果,朴素贝叶斯、决策树、决策列表,支持向量机,得到基于他们的分数和准确性。我展示了一个比较不同的方法得到基于他们的分数和准确性。

结论

我们已经提出了一个比较研究四监督机器学习算法,使用WordNet, Senseval-3,下面的表(2),显示了每种方法的最终结果和准确性。总之,决策列表算法,获得高精度。

承认

我很感激我的研究指导尊重Shashank Joshi博士(教授巴拉蒂Vidyapeeth大学工程学院)对他的支持与合作。

表乍一看

表的图标 表的图标
表1 表2

数据乍一看

图1 图2 图3
图1 图2 图3
图4 图5 图3
图4 图5 图6

引用