所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

情感分析与意见挖掘研究综述

杜哈特·安基特库马尔1, R. R. Badre教授2, Mayura Kinikar教授3.
  1. 印度浦那,麻省理工学院工程学院行政管理系PG学者
  2. 印度浦那,麻省理工学院工程院CE系副教授
  3. 印度浦那,麻省理工学院工程学院行政管理系助理教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

情感分析(SA),也被称为意见挖掘,是一门分析人们对产品、服务、组织、个人、问题、事件、话题等实体的意见、情绪、评价、评价、属性和情感的研究领域。SA是一种机器学习方法,机器对人类以文本或语音形式表达的情感、情绪和观点进行分析和分类。SA旨在确定演讲者或作者对某个主题或文档整体上下文极性的态度。SA是一个正在进行的研究领域。这份调查报告概述了这一领域的最新进展。本文简要介绍了近年来出现的算法和各种SA应用。本文的主要目标是对SA技术及其相关领域进行详细的阐述。本文旨在阐述情感分析及其相关领域的最新研究动向。

关键字

情感分析,观点挖掘,机器学习,情感词汇。

介绍

情感分析(SA)和观点挖掘(OM)是机器学习的子领域。它们在当前的情况下非常重要,因为现在网络上有很多用户意见的文本。SA或OM是对人们对实体的观点、态度和情绪的计算研究。实体可以表示个人、事件或主题。这些主题最有可能在评论中被提及。雷竞技苹果下载这两个表达式SA或OM是可以互换的。
情感分析有很多挑战。首先,在一种情况下被认为是积极的意见词在另一种情况下可能被认为是消极的。第二个挑战是,人们表达观点的方式不同。大多数评论雷竞技苹果下载都会有积极和消极的评论,这在某种程度上可以通过一次分析句子来管理。然而,在更非正式的媒体,如推特或博客,人们更有可能将不同的观点结合在同一句话中,这对人类来说很容易理解,但对计算机来说就更难分析了。有时,即使是其他人也很难根据一小段文字来理解某人的想法,因为它缺乏上下文。
情感分析的主要研究领域有主体性检测、情感预测。基于方面的情感摘要、意见的文本摘要、缩略语观点摘要、产品特征提取、垃圾意见检测。
主观性检测是一种判断文本是否主观的任务。情绪预测是预测文本的极性,是积极的还是消极的。基于方面的情感总结以星级或产品功能评分的形式提供情感总结。文本摘要生成几个句子来总结产品的评论。雷竞技苹果下载对比观点总结强调的是相互矛盾的观点。产品特征提取是将产品特征从评论中提取出来的任务。检测垃圾意见涉及到从评论中识别虚假或伪造的意见。雷竞技苹果下载
情感分析可以在文档级、句子级、方面或特征级进行。在文档级,整个文档分为正反两类。句子层次情感分类将句子分为积极的、消极的和中性的三类。方面或特征级情感分类涉及从源数据中识别和提取产品特征。
情绪分析问题可以通过人工训练得到满意的解决。但需要人工干预的全自动情绪分析系统尚未问世。这是该领域的主要挑战。
情感分析主要有两种方法:基于机器学习和基于词汇。基于机器学习的方法利用分类技术对文本进行分类。基于词汇的方法是利用情感词典和观点词进行匹配,以确定极性。他们对词典中描述词汇积极、消极和客观程度的观点词进行情感评分。
本文的目的是在自然语言处理领域中发现情感分析的概念,并对其在该领域中的技术进行比较分析。
本文的其他部分分别介绍了不同级别的SA和不同的分类技术。

不同层次的情感分析

A.文档级情感分析
基本上,信息是一份有主见的文本。在这个文档级分类中,只考虑对单个主题的一次回顾。但是比较句可能出现在论坛或博客中。在论坛和博客中,有时当客户将一个产品与另一个具有相似特性的产品进行比较时,文档级分析是不可取的。文档级别分类的挑战在于,整个文档中的所有句子在表达关于某个实体的意见时可能并不相关。主观性/客观性分类在这种分类中非常重要。
对于文档级分类,有监督学习和无监督学习方法都可以使用。任何监督学习算法,如naïve贝叶斯,支持向量机,都可以用来训练系统。无监督学习可以通过提取文档中的意见词来完成。因此,文档级情感分类有其自身的优点和缺点。优点是我们可以从文档中获得关于特定实体的意见文本的整体极性。缺点是对一个实体的不同特征的不同情感无法单独提取。
B.句子层次情感分析
同样的文献级分类方法也可以应用于句子级分类问题。在句子级情感分析中,计算每个句子的极性。主句和客观句必须弄清楚。主观句包含意见词,有助于确定对一个实体的感情。在此之后,极性分类为正极和负极。在简单句的情况下,一个句子包含对一个实体的单一意见。但在复杂句子中,对于有主见的句子层次的情感分类还没有做。了解一个句子是肯定的还是否定的信息,比了解一个产品的特定特性的极性用处要小。句子层次分析的优势在于主客观分类。
C.短语级情感分析
这种分类是更精确的意见挖掘方法。找出包含观点的短语,进行短语级分类。在某些情况下,可以正确地提取关于实体的确切意见。
但在某些情况下,词语的否定也会在局部发生。在这些情况下,这种程度的情感分析就足够了。出现在彼此非常接近的单词被认为是一个短语。

情感分类技术

情感分类技术大致可以分为机器学习方法、基于词汇的方法和混合方法[5]。机器学习方法(ML)应用了著名的ML算法并使用了语言特征。基于词汇表的方法依赖于情感词汇表,即已知和预编译的情感术语的集合。它分为基于字典的方法和基于语料库的方法,分别使用统计或语义方法来查找情感极性。混合方法结合了这两种方法,并且非常常见,情感词汇在大多数方法中发挥着关键作用。
基于机器学习方法的文本分类方法可分为监督学习方法和无监督学习方法。监督式方法使用大量有标签的培训文档。当很难找到这些有标签的培训文件时,就使用无监督方法。
基于词库的方法依赖于找到用于分析文本的观点词库。基于词典的方法是先找到观点种子词,然后在词典中查找它们的同义词和反义词。基于语料库的方法从意见词的种子列表开始,然后在大型语料库中查找其他意见词,以帮助查找具有上下文特定方向的意见词。这可以通过使用统计或语义方法来实现。
A.机器学习
机器学习方法依赖于著名的机器学习算法来解决情感分析作为一个常规的文本分类问题,利用句法和/或语言特征。
文本分类问题定义:我们有一组训练记录D = {X1,X2,.....,Xn},其中每个记录被标记为一个类。困难的分类问题是将一个标签分配给一个实例。软分类问题是将标签的概率值分配给一个实例。
I.A.1监督式学习
监督学习方法依赖于标注训练文档的存在。文献中有很多有监督的分类器。下一小节,我们将简要介绍情感分析中一些最常用的分类器。
I.A.1.1概率分类器
概率分类器使用混合模型进行分类。混合模型假设每个类都是混合物的一个组成部分。这类分类器也称为生成式分类器,因为每个混合组件都是一个生成模型,为该组件提供抽样特定术语的概率。三种最著名的概率分类器将在下一小节中讨论。
I.A.1.1.1朴素贝叶斯分类器(NB)
Naïve Byes分类器是最简单、最常用的分类器。Naïve贝叶斯分类模型根据文档中单词的分布计算一个类的后验概率。它使用贝叶斯定理来预测给定特征集属于特定标签的概率。
方程(1)
P(label)是一个标签的先验概率,或者是一个随机特征集标签的可能性。P(特征|标签)是给定特征集被分类为标签的先验概率。P(feature)是给定特征集发生的先验概率。考虑到Naïve假设,即所有特征都是独立的,方程可以重写如下:
方程(2)
Kang和Yoo[2]提出了一种改进的NB分类器,以解决正分类精度倾向于出现比负分类精度高约10%的问题。他们表明,与NB和SVM相比,使用该算法与餐厅评论一起使用缩小了正准确度和负准确度之间的差距。雷竞技苹果下载与NB和SVM相比,该方法的查全率和查准率都有所提高。
I.A.1.1.2贝叶斯网络(NB)
NB分类器的主要假设是特征的独立性。另一个极端的假设是假设所有的特征都是完全依赖的。这导致了贝叶斯网络模型,这是一个有向无环图,其节点表示随机变量,边表示条件依赖关系。BN被认为是变量及其关系的完整模型。在文本挖掘中,BN的计算复杂度很高;这就是为什么,它不经常使用[1]。
Hernandez和Rodriguez[3]使用BN来考虑一个现实世界的问题,在这个问题中,作者的态度由三个不同但相关的目标变量表征。他们建议使用多维贝叶斯网络分类器。它将不同的目标变量加入到同一个分类任务中,以利用它们之间的潜在关系。他们表明,他们的半监督多维方法执行最常见的SA方法,并且他们的分类器是半监督框架中的最佳解决方案,因为它匹配实际的底层域结构。
I.A.1.2线性分类器
给定X = {x1…Xn}为归一化文档词频,向量Á = {a1 ... .an}为与特征空间维数相同的线性系数向量,b为标量;线性预测器的输出被定义为??= ? ? ? ???+ ? ?,which is the output of the linear classifier. The prediction p is a separating hyper plane between different classes. There are many kinds of linear classifiers; among them is Support Vector Machines (SVM) [4,6] which is form of classifiers that attempt to determine good linear separators between classes. Two of most famous linear classifiers are discussed in the following subsections.
I.A.1.2.1支持向量机分类器(SVM)。
SVM的主要原理是在搜索空间中确定能最好地分离不同类别的线性分隔符。在图1中,有2个类x, o和3个超平面A, B和c,超平面提供了类之间最好的分离,因为任何数据点的法向距离都是最大的,所以它代表了最大的分离余地。
文本数据非常适合用于SVM分类,因为文本的稀疏特性,其中很少有不相关的特征,但它们往往彼此相关,通常被组织成线性可分离的类别[8]。SVM通过将数据实例与超平面[7]进行非线性映射,在原始特征空间中构造一个非线性决策曲面。
有识别力的模型,SM用途 ??(??) = ???? ∅(? ?)+ ? ?作为判别函数,其中w为权重向量,b为偏置,(•)表示从输入空间到高维特征空间的非线性映射。参数w和b是根据最大裕度的原则在训练数据集上自动学习的
方程(3)
式中,i为松弛变量,C为惩罚系数。
训练样本(??????????,????) is called a support vector when satisfying the Lagrange multiplier αi>0. By introducing kernel function discriminant function can be represented as
方程(4)
由于文本分类任务中特征空间维数较大,分类问题总是线性可分的[21],因此通常使用线性核。
支持向量机在许多应用程序中使用,其中包括根据评论的质量对其进行分类。雷竞技苹果下载Chen和Tseng[9]使用了两种基于多类SVM的方法:One-versus-All SVM和单机多类SVM来对评论进行分类。雷竞技苹果下载他们提出了一种评估产品评论中信息质量的方法,将其视为分类问题。雷竞技苹果下载他们还采用了信息质量(IQ)框架来寻找面向信息的特征集。他们致力于数码相机和MP3评论。雷竞技苹果下载他们的研究结果表明,他们的方法可以根据评论的质量准确地进行分类。雷竞技苹果下载
Li和Li[10]使用支持向量机作为情感极性分类器。与二元分类问题不同,他们认为意见的主观性和表达者的可信度也应该考虑在内。他们证明了他们的机制可以有效地发现市场情报(MI),通过建立一个监控系统来实时跟踪外部对业务不同方面的意见,从而为决策者提供支持。
I.A.2弱,半和无监督学习
分类的主要目的是将文档划分为若干个类别。在大量的标注培训文档中,标注培训文档的创建比较困难,而未标注培训文档的收集比较容易。为了解决这一问题,采用了无监督学习方法。Koa和Seo介绍了该领域的研究工作,他们提出了一种将文档分为句子的方法,并使用每个类别的关键词列表和句子相似度度量[12]对每个句子进行分类。
B.词汇法
意见词分为许多类别。积极意见词汇用来表达一些必要的东西,消极意见词汇用来描述不必要的东西。观点短语和习语也在那里,它们合在一起被称为观点词汇。意见词表的收集主要有三种方法。其中一种方法是手工法,不能单独使用,而且非常耗时。
基于词汇的技术的基本步骤概述如下[22]:
1.预处理每个文本(即删除有噪声的字符和HTML标签)
2.初始化文本情感总分:s<-0。
3.标记文本。对于每个令牌,检查它是否存在于情感字典中。
(a).如果字典中存在token,
I.如果token为正数,则s<-s+w。
2如果token为负,则s<-s-w。
4.看看文本情感总分,
(a).如果s>阈值,则将文本归类为阳性。
(b).如果s<阈值,则将文本分类为阴性。
I.B.1基于字典的方法
手工收集一小部分意见词,基于字典的方法的主要策略在[11,14]中提出。然后,通过在WordNet[13]和同义词典[15]中找到它们的同义词和反义词来增长这个集。在找到新单词后,将这些单词添加到种子列表中,然后开始下一个过程。当没有找到新单词时,这个过程就会停止。若要消除或纠正错误,将进行人工检查过程。
劣势:该方法的主要缺点是无法找到具有领域和上下文规范取向的意见词。
I.B.2基于语料库的方法
由于很难准备一个庞大的语料库来覆盖所有的英语单词,因此单独使用基于字典的方法效果不明显。但利用领域语料库可以帮助查找领域和上下文特定的观点词是该方法的巨大优势。基于语料库的方法分为统计方法和语义方法。
I.B.2.1统计方法
统计技术发现共现模式或种子意见词。它可以通过获得语料库中的后验极性来实现,如Fahrni和Klenner[17]所提出的。通过使用整个索引文档集,可以解决某些单词[16]不可用的问题。
如果这个词在正面语篇中出现频率较高,那么它的极性就是正面的;如果这个词在负面语篇中出现的次数越来越多,那么它的极性就是负面的。如果有相同的出现,则为中性词。因此,可以通过分析出现频率[19]来识别单词的极性。
I.B.2.2语义方法
在计算词间相似度时,该方法直接给出情感值,并依赖于不同的原则。对于语义相近的单词,该原则给出相似的语义值。通过使用该词的积极同义词和消极同义词的相对数量来确定一个未知词[18]的情感极性。
建立一个描述动词、名词和形容词的词汇模型,用于SA和许多其他应用。Maks和Vossen模型[23]描述的句子中每个演员表达不同态度的句子中演员之间详细的主体性关系。他们的研究结果表明,有时演员的主体性和说话者的主体性是可以不断区分的。
在执行情感分析任务时,语义方法可以与统计方法混合使用。张和徐[20]从网上评论中发现产品的弱点,他们使用了两种方法。雷竞技苹果下载为了找到频繁和不频繁的外延特征,他们使用了基于知网的相似性度量。运用语义方法,对产品特征词进行了分类。他们考虑了程度副词的影响,运用了基于句子的情感分析方法。

结论

本文的主要目的是评价情感分类的集成方法。本调查报告概述了情感分析和分类方法的最新进展。本文中引用的许多文章都为实际应用做出了贡献。挖掘大的非结构化数据已经成为一个重要的研究问题。许多组织都在努力寻找情绪分析的最佳系统。一些算法得到了很好的结果,但这些算法仍然有很多局限性。许多研究人员报告说,与其他分类技术相比,支持向量机具有良好的准确性,但仍有一些局限性。未来需要做更多的工作,因为每个组织都想知道客户对他们的产品和服务的感觉,当然还有对竞争对手的感觉。将不同类型的分类技术结合起来,克服个体的局限性,取长补短,衡量分类技术的优劣。

数字一览

图1
图1

参考文献
























全球科技峰会