关键字 |
朴素贝叶斯分类器;maxent分类器;决策树分类器;文本分类;性别分类;分类器 |
介绍 |
分类问题在以下我们可以定义一组类,然后预测给定的输入对象的类。可以使用分类问题超出了信息检索等(1)图像分类检测图像属于哪个类风景或肖像。(2)检查电子邮件是垃圾邮件。(3)排序的信息来自朋友、家庭、办公室等分类可以手工完成,但这是非常耗费时间,所以我们必须使用电脑。我们必须推导规则为每个类。 |
除了手工分类和基于规则的技术,我们可以使用监督机器学习分类。这种方法,我们需要一个训练集,分类器将使用训练集训练。在那之后,我们必须创建一个测试将检查的准确性和其他措施的分类。训练集和测试集应该是彼此独立的。训练集的每个对象应该手动标记,这是比较容易的方法而不是推导规则。但特征选择是这个学习机制的主要方法。我们在这个分类的目标是检测最好的给定文档意味着高精度测试数据。 |
相关工作 |
穆贾达姆等[5],使用支持向量机分类的性别从视觉形象与低分辨率(21 - 12像素)从1755年从FERET面对数据库图像处理。svm的性能误差(3.4%)显示优于传统模式分类器(线性,二次,Fisher线性判别、近邻),以及更多的现代技术,如径向基函数(RBF)分类器和大型ensemble-RBF网络。在[6],Zehang等使用主成分分析(PCA)来表示每个图像特征向量(即。eigenfeatures)在低维空间。遗传算法(气)然后用来选择一个低维的特征子集表示无视某些特征向量,似乎并不重要的性别编码信息。他们用四种不同的分类器测试的准确性,即贝叶斯分类器、神经网络(NN)分类器,支持向量机(SVM)分类器,分类器基于线性判别分析(LDA)。,支持向量机分类器的错误率很低4.7%的平均错误率8.9%使用手动选择特性。马尔科姆在[7],等使用一组扩展的主要话题性的电子邮件文档风格标记等特性,结构特点和gender-preferential语言特性结合支持向量机学习算法。在[8],穆克吉等人提出两个新的技术来改善当前的结果。第一种技术引入了一个新的类可变长度POS的特征序列模式挖掘的训练数据使用一个序列模式挖掘算法。在[9],燕等提出了一个Naıve贝叶斯分类方法识别性别的博客作者。 In addition to features employed in traditional text categorization, they used weblog-specific features such as webpage background colors and emoticons. The second technique is a new feature selection method which is based on an ensemble of several feature selection criteria and approaches. In [10], Amasyalı et al used four different classifiers to detect 3 different areas such as determining the identification of a Turkish document’s author, classifying documents according to text’s genre and identifying a gender of an author. Naive Bayes, Support Vector Machine, C 4.5 and Random Forest were used as classification methods. |
问题定义 |
在本文中,我们使用性别分类,分类器输入对象名称和分类器预测它属于class-male或女性。我们的组类只有两个成员。来训练分类器,我们用名字文集,8000种不同的名称已经存在,每个名字相同。我们使用suffle()函数来构建训练集和测试集,所以每次训练集和测试集是不同的从先前的步骤。然后我们得到feature_selection()函数从名称和训练分类器使用该特性。最后,我们检查精度,精度,还记得,F1measure每个分类器的使用测试集和比较研究。 |
特征选择 |
特征选择的主要标准是训练一个分类器。培训后,分类器测试每一个测试集的对象使用该特性。一般来说,分类器按照概率模型的信息检索。所以,分类器计算概率的每个类输入对象,并产生输出类嗨!是谁的概率。从训练集分类器训练使用,功能。用于测试目的,分类器计算每个对象使用的概率特性和预测输出。 |
分类器 |
1。摘要对分类器 |
摘要对分类器工作基于Baye定理的条件概率。当输入变得非常高,这个应该使用分类器。这种分类器构建使用概率模型。这里只有两类标签。因此,我们使用二进制分类。计算条件概率对测试集的每一个名字,就像,如果输入的名字是X和类标签是C,那么它将计算P (X | C)和P (X | ~ C)的概率P (X | C)是名X属于类标签C和P (X | ~ C)的概率名字X不是属于C类标签。 |
2。最大熵分类器 |
最大熵分类器,也叫条件分类器,将标签特性集使用编码向量。的编码向量是用来计算重量每个功能,用于标签的测试数据。一些参数如“算法= iis”,“跟踪”、“max_iter”,“min_lldelta”已经将得到更准确的结果。 |
最大熵分类器的基本思想是概率分布函数。“iis”迭代算法增加了体重。物种的最大迭代数,“max_iter min_lldelta”指定至少改变log_likelihood所需迭代和改变权重。 |
3所示。决策树分类器 |
决策树分类器是通过创建分类树,每个非叶节点对应一个功能的名字和他们的孩子对应一个特征值。决策树分类器通常用于文本分类问题。这也是一个监督机器学习方法。所以训练集和测试集需要被创建。培训期间,决策树分类器创建一个二叉树的子节点也分类器的实例。叶节点只包含一个标签,这中间包含子节点决定为每个特征映射。它对分类的贡献最后的决定。 |
仿真结果 |
精密(P)相关的检索文档的一部分;P(相关|检索) |
回忆(R)的分数相关的文档检索;(检索|相关页)。 |
如果检索到的文档是相关的,那么它就是真正的阳性(tp),如果检索文档是不相关的,那么它就是假阳性(fp),如果没有检索到的文档是相关的,那么它就是假阴性(fn),如果没有检索到的文档是不相关的,那么它是真的底片(tn)。所以 |
|
|
准确性是分类的一部分,是正确的。所以 |
|
单个测量精度和召回F衡量交易,即加权调和平均数的精度和召回。 |
准确性(比较分析) |
|
基于图的分析 |
|
1)朴素贝叶斯分类器对男性 |
|
2)对女性朴素贝叶斯分类器 |
|
3)最大熵分类器为男性 |
|
4)最大熵分类器为女性 |
|
5)决策树分类器为男性 |
|
6)决策树分类器为女性 |
|
基于图的比较分析 |
男性的精度) |
|
b)精度为女性 |
|
c)召回为男性 |
|
d)召回为女性 |
|
|
|
承认 |
自然语言与Python 2.7工具包用于得到所有的结果。名字语料库,版本1.3(作者:马克•坎特罗威茨和比尔罗西日期1994-03-29)用于训练和测试的目的。所有的图表由Microsoft Word绘制图表。 |
结论和未来的工作 |
在本文中,我们使用三个分类器检查三个分类的准确性。根据结果,我们得出这样的结论:最大熵分类器与“iis”算法,给最好的结果与其他分类器。在未来,我们将尝试使用这个分类器为另一种类型的文本分类问题。 |
引用 |
- 鸟,史蒂文,爱德华·洛佩尔和伊万·克莱因(2009),自然语言处理与Python。O ' reilly Media Inc .)
- WilliRichert路易斯·佩德罗•科埃略与Python构建机器学习系统,2013 Packt出版
- 克里斯托弗·d·曼宁PrabhakarRaghavan&HinrichSchutze(2009)介绍信息检索,在线版,剑桥
- 雅各布·帕金斯,Python文本处理2.0 NLTK食谱
- 穆贾达姆,Baback Ming-Hsuan杨。“性别与支持向量机分类。”自动的脸和手势识别、2000.程序。第四IEEE国际会议.沈阳,2000年。
- 阳光、Zehang et al。“基因特征子集选择性别分类:比较研究”。计算机视觉的应用,2002年。(WACV 2002)。程序。第六IEEE研讨会.沈阳,2002年。
- Corney,马尔科姆,et al。“Gender-preferential文本挖掘的电子邮件话语。”计算机安全应用会议,2002。Proceedings.18th年度.沈阳,2002年。
- 穆克吉、Arjun和刘必应。“改善性别分类的博客作者。”学报2010年的会议经验在自然语言处理的方法.Association计算语言学,2010。
- 凌湘燕,燕。“性别分类的博客作者。”AAAI春季研讨会:计算分析方法博客。2006年。
- Amasyalı,m . Fatih BanuDiri。土耳其“自动文本分类的作家、流派和性别。”自然语言处理和信息系统海德堡.Springer柏林,-226年2006.221。
|