所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

跨域的观点挖掘利用社会媒体内容的一本同义词典

N.Manjunathan
  • 计算机科学与工程系助理教授,峨山纪念工程与技术学院Chengalpattu,钦奈,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

自动分类的情绪是很重要的矿业等众多应用意见,意见汇总,上下文广告,和市场分析。通常,情绪分类被建模为培训的问题二元分类器使用评论注释积极或消极的情绪。雷竞技苹果下载然而,在不同的领域,有不同的情绪表达,为每一个可能的域标注语料的兴趣是昂贵的。应用情绪分类器训练使用带安全标签的数据时为特定域分类用户评论的情绪在不同的领域往往导致表现不佳,因为单词出现在火车(源)域可能不会出现在测试(目标)域。雷竞技苹果下载我们提出一个方法来解决这个问题在跨域情绪分类。首先,我们创建一个情绪敏感分布源域和同义词典使用带安全标签的数据时无标号数据为源和目标域。情绪敏感性在同义词典实现合并文档级别情绪标签向量作为测量的基础上下文中单词之间的分布相似。接下来,我们使用同义词典,扩大创建特性向量二进制分类器在训练和测试时间。该方法明显优于许多基线和返回结果与之前类似的提议crossdomain情绪分类方法基准数据集包含亚马逊用户评论为不同类型的产品。雷竞技苹果下载我们进行该方法的一个广泛的实证分析、源域改编,非监督和监管领域适应,和众多的相似性措施创造情绪敏感词库。 Moreover, our comparisons against the SentiWordNet, a lexical resource for word polarity, show that the created sentiment-sensitive thesaurus accurately captures words that express similar sentiments.



索引词

跨域的情绪分类、领域适应、主题词表的创建

介绍

用户表达自己的意见他们消费的产品或服务在博客文章,购物网站,或评论网站。雷竞技苹果下载评论在各种各样的商品在网上的,比如书籍(amazon.com),酒店(tripadvisor.com),电影(imdb.com)、汽车(caranddriver.com),和餐馆(yelp.com)。它是有用的为消费者和生产者知道公众思考一个特定的产品或服务。自动文档级别的情绪分类[1],[2]是分类的任务给定的审查对评论的作者表达的情绪。例如,情绪分类器可能将用户评论一部电影是积极的还是消极的取决于审查表达的情绪。情绪分类被应用在多种任务,比如看来矿业[3],意见总结[4],上下文广告[5],[6]和市场分析。或负面情绪,然后为每个情绪类型创建一个总结为特定的产品。上下文广告系统可能决定显示一个广告位置为一个特定的产品如果在博客中表达积极情绪。
监督学习算法,需要带安全标签的数据已经成功地用于构建情感分类器对于一个给定的域[1]。然而,在不同的领域,不同的情绪表达是昂贵的注释数据为每个新领域,我们想应用一个情绪分类器。例如,在电子产品领域的单词“耐用”和“光”是用来表达积极情绪,而“昂贵”和“短电池寿命”常常表示负面情绪。另一方面,如果我们考虑到图书领域的单词“令人兴奋”和“惊悚片”表达积极情绪,而“无聊”和“冗长”通常表达负面情绪。在一个域分类器训练可能不表现在不同的领域,因为它未能学习情绪的看不见的单词。
跨域的情感分类问题[7],[8]关注的挑战训练一个分类器从一个或多个域(源域)和应用训练分类器在不同领域(目标领域)。一个跨域情绪分类系统必须克服两个主要挑战。首先,我们必须确定哪些源域特性与目标域特性。其次,我们需要一个学习的框架将信息源和目标域特性的关联性。在本文中,我们提出一个跨域情感分类方法,克服了这些挑战。
我们模型的跨域情绪分类问题的功能扩张,我们添加额外的相关功能特征向量代表源和目标域评论减少两个域之间的不匹配的特性。雷竞技苹果下载使用相关功能的方法已成功地用于多种任务,比如在信息检索查询扩张[9][10],[11]和文档分类。扩张,例如,在查询一个用户查询包含这个词的车可能会扩大到汽车或汽车,从而检索文档,包含术语的汽车或汽车。然而,我们所知,功能扩展技术以前没有应用于跨域情绪分类的任务。该方法可以从大量的未标记数据利用一个健壮的跨域情绪分类器。
在我们的方法中,我们使用同义词典自动创建扩展特性在一个二进制向量分类器在训练和测试时间通过引入相关词汇同义词典中的元素。我们使用L1正规化逻辑回归的分类算法。然而,该方法是不可知论者的属性分类器,可以用来扩大任何二进制分类器的特征向量。如图所示在之后的实验中,L1正则化使我们能够选择的一个小子集分类器的特性。
我们的贡献在这工作可以概括如下:
。我们提出一个全自动的方法创建一本同义词典,敏感的情绪词表达不同的域。我们利用标记数据和未标记数据可用的源域和无标号数据从目标域。
。我们提出一个方法来使用同义词典,扩大创建特性向量二进制分类器在训练和测试时间。
我们的情绪分类精度比较方法对大量的基线和以前提出的跨域情绪对单一分类方法。

问题设置

我们定义了一个域D类世界上的实体或语义概念。例如,不同类型的产品,如书籍、dvd,或者汽车视为不同的领域。给定一个审查用户写的产品属于一个特定的领域,目的是预测这篇评论的作者所表达的情绪的产品。我们限制二进制情绪分类的全部评论。雷竞技苹果下载
我们表示Dsrc的源域和目标域Dtar。标签的集合实例从源域,LðDsrcÞ,包含对ðt;cÞ审查,t,被赋予一个情绪标签,c。这里,c 2 f1;_1g,情绪标签þ1和_1,分别表示积极的和消极的情绪。除了积极和消极情绪的评论,也可以是中性的,在实际应用程序中褒贬不一。雷竞技苹果下载如果一个审查讨论了特定产品的正反两方面的影响,那么这样的评论被认为是一个混合情绪评估。另一方面,如果审查不包含关于parti-cular产品既不积极也不消极情绪就被认为是中性的。尽管本文只集中在积极和消极情绪评论,不难将该方法扩展到解决multicategory情绪分类问题。雷竞技苹果下载

情绪敏感词库

作为第三节我们看到在我们的例子中,一个基本问题时应用情绪分类器训练在一个特定的域分类评价在不同的域是单词(因此特性)的评论出现在目标领域并不总是出现在训练模型。雷竞技苹果下载克服这个特性不匹配问题,我们构建一个情绪敏感词库,抓住话语的关联性用于不同的领域。接下来,我们描述了过程来构建我们的情绪敏感词库。
给定一个标签或标记审查,我们第一次审查分割成单个的句子和行为——演讲的一部分(POS)标记和词元化使用锉系统[12]。词元化是正常化的过程中一个词的变形形式引理。词元化降低了特征稀疏和已证明是有效的文本classifica-tion任务[13]。然后,我们应用一个简单的词过滤基于POS标记过滤函数的话,只保留名词、动词、形容词和副词。特别是,形容词有被确认为好以前的工作情绪的指标[14],[15]。crossdomain信心后,以前的工作分类,我们模型审查一袋的话。我们从每个句子然后选择unigrams和三元。在本文的其余部分,我们将参考unigrams和三元统称为词法元素。在以前的工作情绪分类显示,使用unigrams和三元都是有用的训练分类器[7]。我们注意到有可能创建词法元素从源域标记评论(LðDsrcÞ)以及无标号的评论从源和目标域(UðDsrcÞ和UðDtarÞ)。雷竞技苹果下载
接下来,从每个源域标签审核我们创造情绪元素通过添加的标签审查每个词法元素我们生成。例如,考虑所选择的句子从一个积极的评论一本书表2所示。在表2中,我们使用的符号“* P”来表示积极情绪元素和“* N”来表示负面情绪的元素。选择表2所示的例子句子从一个积极的标签审查,并产生积极情绪元素显示在表2。情感元素,提取只使用标记的评论在源域,对情绪信息编码词法元素提取源和目标域雷竞技苹果下载
我们代表词汇或情绪元素u由特征向量,其中每个词汇或情感元素w,伴有u在复习句子功能有助于u。此外,的值特征向量u用fðu w;wÞ。向量u可以被看作是一个分布的紧凑表示元素的u /元素的集合与u cooccur评论。雷竞技苹果下载分配假说认为,词有相似的分布语义相似[16].Fig。1。构造特征向量两个词法元素u1和u2从源域审查Lsrc,正面贴上两张不带标签的评论从源(Usrc)和目标(Utar)域。雷竞技苹果下载向量u1包含情绪元素v1_P和词法元素v1、v2。向量u2包含词法元素v1和v2。亲缘,_ðu1;u2Þ,u1和u2之间由(2)给出。候选人情绪元素。 However, we emphasize the fact that the relatedness values between the lexical elements listed in the sentiment-sensitive thesaurus are computed using co-occurrences with both lexical and sentiment elements, and, therefore, the expansion candi-dates selected for the lexical elements in the target domain reviews are sensitive to sentiment labels assigned to reviews in the source domain.
构建情绪敏感词库,我们必须计算两两关系值使用(2)numer-ous词法元素。此外,计算特征向量的点态互信息值,我们必须存储大量的词汇和情绪之间的共存的信息元素。通过使用一个稀疏矩阵格式和近似向量相似性计算技术[21],我们可以有效地从大量的评论创建一本同义词典。雷竞技苹果下载特别是,通过使用近似向量simi-larity计算技术我们可以避免词汇之间的计算关系值的元素可能有非常小的亲缘成绩因此不太可能成为一个给定的基本项的邻居。

功能扩展

跨域情绪classi-fication中的一个基本问题是,功能出现在源域并不总是出现在目标域。因此,即使我们训练一个分类器使用带安全标签的数据从源域,训练模型不能随时用于分类测试实例在目标域。为了克服这个问题,我们提出一个功能展开法与额外增加一个特征向量相关功能选择从第四节中创建的sentiment-sensitive同义词典。在本节中,我们描述我们的功能扩展方法
首先,bag-of-words模型后,我们模型审查d使用set fw1;。;wN g, wi unigrams或一定范围的元素出现在审查d。然后,我们代表的评论d realvalued term-frequency矢量d 2写作,在dj j元素的值设置为总
前N维度的值对应于unigrams和三元wi,发生在评论d将di,频率在d。随后k维对应于评论d排名最高的基本项,根据排名加权分数。具体地说,我们的价值仅仅排名基本项vr d 1 = r。或者,可以使用排名得分,scoreðvr d;dÞ,本身的价值附加基本项。然而,亲缘分数以及规范化term-frequencies可以小练习,导致很小的绝对排名成绩。另一方面,扩大功能必须有较低的特性值相比原来的特性尤其是特征向量。我们已经设置为原始特征值特征频率的审查。因为亚马逊产品评论很短,大多数功能只出现一次审雷竞技苹果下载查。利用逆是扩展的特性值的特性,我们只考虑基本项的相对排名,同时指定特性值低于原来的功能。
注意,基本项的分数取决于审查d。因此,我们选择不同的基本项附加功能扩大不同的评论。雷竞技苹果下载此外,我们不单独扩大每个wi扩大一个矢量d审查。相反,我们考虑所有unigrams和三元d在选择扩张的基本项。可以可视化功能扩张过程较低dimen-sional潜映射的特性在张成的空间的基本项sentiment-sensitive同义词典。通过调整k的值,基本项用于扩大审查,一个可以改变这个潜在的评论数量的大小的基准数据集雷竞技苹果下载
使用扩展向量d0代表评论,我们训练一个二进制分类器从源域标签检验预测的积极和消极情绪的雷竞技苹果下载评论。我们附加基本项vr d有别于wi中存在原始矢量d(扩张)通过分配不同的功能标识符附加基本项。例如,unigram优秀的特征向量是有区别的基本项优秀通过分配特性id,后者“基地¼优秀”。这使我们能够学习不同的权重为基本项取决于他们是否有用的扩展一个特征向量。一次二元分类器训练,我们可以用它来预测一个目标域的情绪评估。我们使用上述功能扩展方法加上sentiment-sensitive同义词典扩展功能测试时间为目标域上的向量。

实验

数据集

我们使用跨域的情绪分类数据set2由Blitzer et al .[7]中的比较该方法与以前的工作对跨域的情绪分类。这个数据集由亚马逊产品评论为四种不同的产品类型:书籍,dvd,电子产品,厨房用具。雷竞技苹果下载每个评论分配与评级(0 - 5星),一个评论家的名字和位置,一个产品的名字,评论标题和日期和评论文本。雷竞技苹果下载评论和评级> 3标记为正的,而那些评级< 3贴上消极。这个基准数据集的总体结构表3所示。对于每一个领域,1000年有1000个积极和消极的例子,相同的平衡成分极性数据集由庞et al . [1]。数据集还包含一些标记评论四个领域。雷竞技苹果下载这个基准测试数据集已在以前的工作在跨域使用情绪分类,通过评估我们可以直接比较该方法与现有的方法。
以前的工作后,我们随机选择800例阳性,800 -标记的评论从每个域训练实例(总数的训练实例1;600 _ 4¼6;400),其余是用于测试(测试实例总数400 _雷竞技苹果下载 4¼1,600)。在我们的实验中,我们选择每个域反过来作为目标域,与一个或多个来源的其他领域。请注意,当我们把多个来源
我们使用在目标域分类精度评价指标。是正确的分数分类目标领域评论评论的总数在目标域,定义如下:雷竞技苹果下载
上述过程创建四个主题词表(每个词库是由不含标签的训练数据为特定目标域)。例如,三个领域的dvd、电子、和书籍,我们生成53586词汇62744个情感元素和元素创建一个同义词典,用于调整分类器训练这三个领域厨房领域。类似的功能是生成的其他领域。为了避免可能产生稀疏和噪声特性,我们要求每个特性发生在至少两个不同的复习句子

跨域的情绪分类

评估使用跨域的情绪敏感的同义词典的好处情绪分类,我们比较该方法对三种基线方法在表4。接下来,我们描述方法相比在表4。
不适应。这个基准模拟不执行任何功能扩张的影响。我们只是训练二元分类器使用unigrams和三元特性标记的评论在源域和目标应用训练分类器雷竞技苹果下载
Nonsentiment敏感词库(NSST)。评估使用情绪特性的好处在我们提出的方法,我们只创建一本同义词典使用词法元素。词法元素可以来自标记和未标记的评论而情绪元素只能从派生标记的评论。雷竞技苹果下载我们没有使用评级信息的源域标记数据的基线。一本同义词典使用这些特性,随后创建用于功能扩张。二元分类器训练使用扩展功能。
提出(SST:情绪敏感词库)。这是本文中描述的方法。我们使用情绪敏感词库使用第4部分中描述的程序创建和使用同义词典的功能扩张的二元分类器。
在域。在这种方法中,我们训练一个二进制分类器使用带安全标签的数据从目标域。这种方法提供了一个跨域情绪分析上界。这个基线上演示了分类精度,我们希望可以得到如果我们有带安全标签的数据时,如果目标域。请注意,这不是一个跨域分类设置。
亲缘措施的效果
的选择亲缘thesauri-based方法测量是一个重要的决定。不同亲缘措施将列出不同的词法元素作为一个特定词法元素的邻居。因此,扩张的候选人将直接影响亲缘测量用于创建同义词典。从表5的影响研究,我们看到亲缘提出测量报告的总体分类精度最高,其次为逆转基线,林的相似性度量,余弦相似性的秩序。然而,必须指出这些亲缘措施之间的性能差异不具有统计学意义。这个结果意味着提供广泛的亲缘措施可以用来创建一个情绪敏感的同义词典使用的功能扩展方法。该方法的进一步调查不敏感的亲缘措施三个重要原因透露,接下来我们将讨论。
首先,回想一下,提出功能展开法(见第五节)不使用亲缘分数的绝对值,但只使用相对跻身扩张的候选人。因此,两个亲缘措施,产生不同的绝对得分可以获得类似的性能相对排名扩张候选人中是相似的。从图2中,我们看到,_ðu;vÞ_ðv是高度相关;uÞ。事实上图2的皮尔森相关系数高达0.8839的紧密的置信区间[0.8835,0.8844]。这个实验结果表明,尽管根据定义(2)是不对称的,不对称的水平在实践中是非常小的。该方法及其逆转基线(8)报告相似的精度值在表5进一步支持这一发现。

特性分析

分析该方法学习的特性我们训练该方法使用厨房,dvd,电子源域。拟议的功能展开法生产137635 4773年特色的评论。雷竞技苹果下载然而,L1正则化产生的稀疏模型只包含1668特性通过选择从培训in-stances最歧视的特性。三个例子特性,表6显示了他们的模型权重和三大扩张。找到正确的相关功能扩张候选人的方法。例如,优秀是增长了三元无价的þ资源,扩展和最差的三元绝对þ垃圾。

对以前的工作比较

我们比较了该方法对两个先前提出的跨域情绪分析方法。接下来,我们简要描述这些方法。他们是8节中详细描述。
SCL-MI。这是结构性函授学习(sci)方法提出Blitzer et al . [25]。该方法利用标记和un-labeled数据基准数据集。它选择轴心使用之间的互信息功能(unigrams或三元)和域标签。接下来,线性分类器学习预测这些枢轴点的存在。学习权重向量排列矩阵中的行和奇异值分解(圣)执行减少这个矩阵的维数。最后,这个低维矩阵用于项目特征分类器训练一个二进制情绪。
光谱特性对齐(SFA)。这是国家林业局锅等。提出的方法[8]。功能被归类为特定领域或domain-indepen-dent使用特性和一个域之间的互信息标签。unigrams和三元都视为特性代表了审查。接下来,构造两偶图之间的特定领域和特定领域特性。优势形成特定领域和特定领域特性图中如果这两个特性cooccur在某些特征向量。

相关工作

情绪分类系统可以大致分为单极[1],[2],[27],[28],[29],[30]和跨域[7],[8]的域分类器基于他们在随后应用于训练。在另一个轴,情绪分类器可以分类取决于他们在词分类情绪水平[31],[32],句子水平[33],或文档级别[1],[2]。我们的方法执行crossdomain情绪在文档级别分类。
单极情绪分类,分类器训练使用带安全标签的数据域的注释将被应用。特尼[2]措施之间的共存一个词和一组手动选择正面词汇(例如,好,好,好,等等)和消极词(如坏、肮脏、贫穷,等等)使用逐点的互信息来计算一个词的情绪。Kanayama和Nasukawa[29]提出了一个方法来构建一个面向领域情感词典识别单词,表达特定的情绪在一个给定的域。通过建设领域特定词汇认为情绪取向的单词在一个特定的领域。因此,他们的方法很难应用于分类情绪在不同的领域。
单极情绪分类相比,已被广泛的研究在以往工作[3],跨域情绪分类最近才收到关注领域的进步领域适应[34],[35],[36]。真正的和腌[37]报告实证测试领域适应气候变化的情绪分类器。他们使用一个合奏九分类器训练分类器。然而,大多数这些测试
Blitzer等。[7]提出了sci算法来训练一个跨域情绪分类器。sci是出于交替结构优化(麻生太郎),多任务学习算法,提出了安藤和张[38]。鉴于标签数据从源域和无标号数据从源和目标域,sci选择一组主功能,这常常发生在源和目标域。接下来,线性预测训练预测主功能的出现。积极的训练实例为特定的主功能被删除auto-matically生成相应的主特征在特征向量。特征向量不包含一个特定的主功能视为消极训练实例的任务学习预测的主功能。值得注意的是,这种方法不需要任何手动标记特征向量学习主功能预测。为每个主功能,一个线性计算权向量和权重向量的集合所有的主功能考虑被安排在一个矩阵。接下来,圣言上执行这个权重矩阵构造一个低维的特征空间。然后每个特征向量映射到一个低维representa-tion乘以计算矩阵。 Finally, each original feature vector is augmented with its lower dimensional representation to form a new (extended) feature vector. A binary classifier is trained using labeled reviews (positive and negative sentiment labels) using this new set of feature vectors. In the SCL-MI approach, a variant of the SCL approach, mutual information between a feature and the source label is used to select pivot features instead of the cooccurrence frequency. However, in practice it is hard to construct a reasonable number of auxiliary tasks from data, which might limit the transfer ability of SCL for cross-domain sentiment classification. Moreover, the heur-istically selected pivot features might not guarantee the best performance on target domains. In contrast, our method uses all features when creating the thesaurus and selects a subset of features during training using L1 regularization. Moreover, we do not require SVD, cubic in time complexity, which can be computationally costly for large data sets.

结论

我们提出了一个跨域情绪分类器使用一个自动提取情绪敏感词库。克服跨域情绪分类的特性不匹配问题,我们使用标签来自多个源的数据从源域和目标域和无标号数据计算功能的亲缘和构造一个情绪敏感词库。然后我们使用同义词典,扩大创建特性向量二进制分类器在训练和测试时间。一个相关的特征子集选择使用L1正规化。该方法明显优于几个基线和报告的结果与之前类似的跨域草案的情绪分类基准数据集上的方法。此外,我们对SentiWordNet比较表明,创建sentimentsensitive同义词典准确地组词表达了类似的情绪。在未来,我们打算推广该方法解决其他类型的领域适应任务。

表乍一看

表的图标 表的图标
表1 表2

数据乍一看

图1 图2 图3
图1 图2 图3

引用