产品技术方面排名:一项调查

Rutuja Tikait¹巴德雷,r²,Mayura Kinikar³

C.S.E. P.G.学者,部门,MIT AOE, Savitribai Phule University of Pune, Pune, India.
副教授,C.S.E.的部门,MIT AOE, Savitribai Phule University of Pune, Pune, India.
C.S.E.系助理教授,MIT AOE, Savitribai Phule University of Pune, Pune, India.

文摘

一个产品可能有几百的方面。一些产品的方面比其他人更重要和有强烈影响的最终消费者的决策以及公司的产品开发策略。识别重要的产品方面成为必要的消费者和企业都受益。消费者可以很容易地做出购买决定,以及要注意的重要方面公司可以专注于提高这些方面的质量,从而有效地提高产品的声誉。本文提供了各种产品的技术方面的描述和分类识别。

关键字

方面识别;方面排名;消费者评估;产品方面;情绪的分类。

介绍

近年来电子商务发展非常迅速的使用。大多数零售网站促进消费者写关于产品的反馈来表达他们的意见的产品的各个方面。一个方面,也可以称为功能,指的是一个组件或某种产品的一个属性。样品审查“索尼的音质Experia是惊人的。”揭示了积极的意见方面索尼Experia“音质”产品。许多论坛网站还为消费者提供一个平台发布评论数量的产品。雷竞技苹果下载例如,CNet.com涉及超过七百万个产品评论;雷竞技苹果下载这些众多的消费者评论含有丰富和宝贵的知识,这是成雷竞技苹果下载为一个重要的资源为消费者和公司[1]。在购买产品之前,消费者通常寻求在线评论质量信息和企业可以利用这些评论的反馈更好的产品开发、客户关系管理和市场营销。雷竞技苹果下载

一般来说,一个产品可能的数量方面。例如,智能手机有数百名等方面“屏幕大小,”“内存大小”,“相机,声音质量。”一位可以说某些方面比其他人更重要,并有很强的影响消费者的决策以及公司的产品开发策略。例如,智能手机的一些方面,如,“相机”和“内存大小,”被认为是最重要的消费者,和比其他的更重要,如“颜色”和“按钮”。Hence, the identification of important product aspects plays an essential role in improving the usability of reviews which is beneficial to both consumers and firms. Consumers can easily make purchasing decision by paying attention to the important aspects, while firms can focus on the improvement of product quality so that product reputation is enhanced. However, manual identification of important aspects is impractical. Therefore, an approach to automatically identify the important aspects is highly demanded. Motivated by the above observations, we made a survey on different techniques used to find important product aspects automatically from online consumer reviews.

本文在第二部分提出的方法论和技术用于产品方面识别和分类方面的部分没有。三世和部分没有。第四和第五部分分别说明了产品方面排名。

方法

产品方面排名的过程包括三个主要步骤:(a)方面识别;(b)情绪分类方面(c)产品方面排名。鉴于产品的消费者评论,首先识别方面的评雷竞技苹果下载论,然后分析这些评论,找出消费者意见方面通过情绪分类器,最后排名产品基于频率的重要性方面的考虑方面,消费者的意见给各个方面对他们的整体观点。

雷竞技苹果下载评论可以发布在网在三个不同的类型:

类型(1)-利弊:审稿人要求分别描述利弊。

类型(2),优点,缺点,详细审查:审查者被要求分别描述利弊,也写一个详细的审查。

式(3)-自由格式:审稿人可以自由写,即。,没有分离的优点和缺点。

不同类型的评论可能需要不同的技术来执行雷竞技苹果下载任务,比如产品方面识别、产品情绪分类和产品方面排名如图1中所述

式(1)和(2),舆论导向是已知的,因为利弊是分开的,因此不需要识别它们。只有产品特性需要确定客户的评论。对于式(3),我们需要确定产品功能和舆论导向。

为了获得的识别方面,利弊评论作为支持知识协助识别方面的自由文本的评论。雷竞技苹果下载特别是第一个自由文本评论分割成句子,并使用解析器解析每个句子。雷竞技苹果下载后,频繁的名词短语作为候选人从句子解析树中提取方面。因为这些候选人方面可能含有噪声,进一步的利弊评价是用来帮助他们识别方面的候选人。雷竞技苹果下载那么频繁的名词术语提取优缺点的评论收集词汇。雷竞技苹果下载各个方面的利弊评论表示成unigram特性,然后所有的方面都用来支雷竞技苹果下载持向量机(SVM)分类器学习看到下面成了[2]。最终的分类器是用来识别方面的候选人从自由文本中提取的评论。雷竞技苹果下载

这个任务分析方面叫做aspect-level情绪表达的情感分类[3]。许多技术用于情绪包括监督学习方法和非监督分类方法如lexicon-based方法。lexicon-based方法使用一个情绪词典包含情绪词的列表,短语和成语,来确定情绪取向[4]在每个方面。另一方面,监督学习方法训练情绪分类器通过使用训练数据集。然后分类器是用来预测情绪在每个方面。在随后的子部分我们将讨论情绪分类的各种方法方面。最后一个概率方面排名算法用于识别重要的产品方面的评论。雷竞技苹果下载

识别技术方面

监督式学习

监督学习技术使用的标记集合评论学会提取模型。雷竞技苹果下载这个提取模型称为器然后使用识别方面的评论。雷竞技苹果下载大部分的监督学习技术是基于顺序学习。各种文献显示不同的技术的学习器。

黄和林[5]使用HMM模型和条件随机场学习器。

李等人[18]使用跳过CRF和树CRF即CRF变异学习器集成。这种方法的主要缺点是,它需要标记样本进行训练。这些方法非常耗时的标签样品。

无监督学习

在这个方法方面被认为是名词或名词阶段和发生频率计算的名词和名词短语。频繁的名词或名词短语被视为方面。胡和刘[3]使用这种无监督识别技术方面。该方法的主要缺点是,识别方面候选人可能含有噪声。

吴等人[21]使用一个短语依赖解析。短语依赖解析以这句话作为输入部分成短语。那么这些片段与弧。短语依赖解析重点短语,而不是单一的词在短语。确保识别方面候选人方面语言模型用来预测基于产品评论的候选人。雷竞技苹果下载模型过滤低分的候选人。这样的模型可能是偏见常用词的审查和不能合理精确相关分数方面的结果不能有效地过滤掉噪音。

Popesu和Etrioni[19]开发了他们自己的识别系统方面。他们开发了点名系统基于KnowItAll web信息提取系统,从评论中提取方面。雷竞技苹果下载苏等人[20]设计强化策略。这一战略集群产品方面和意见,反复使用内容和情绪

情绪方面分类技术

基于词典的方法

意见词是用在许多情绪分类任务。理想状态是表达积极的意见的话,不受欢迎的国家表达负面的意见。所有意见词、观点的短语和习语在一起称为词汇。

胡锦涛和刘[3]使用这种方法。他们利用同义词或反义词关系定义在WordNet引导种子词集,最后获得情绪词汇。图2显示了示例同义词的两极形容词结构关系是由箭头(→)和反义词的关系是由冲箭头(- >)。

这三种方法用于收集意见单词列表都是手动的,基于词典和基于语料库的方法。手动方法非常耗时,并且它不单独使用。通常结合其他两个自动化的方法来避免错误导致自动化的方法。提出了两种自动的方法下面。

基于字典的方法:

[7,8]提出的主要策略基于字典的方法。一个小手动设置收集的意见的话,已知的方向。然后,同义词和反义词的这些词添加到这个集合增长了众所周知的语料中的词搜索WordNet[6]或同义词典[9]。新发现的词添加到种子列表然后开始下一次迭代。这个迭代过程停止时没有找到新单词。进程列表检查完成后手动删除或纠正错误。

这种方法是无法找到的意见与域和上下文特定的取向是这种方法的主要缺点。

基于语料库的方法:

基于词典的方法的缺点是克服在基于语料库的方法有助于解决发现的问题意见和上下文特定的方向。其方法取决于句法模式。

全面的基于词典的方法:

丁等[22]提出了基于整体词汇方法整体lexicon-based方法提高了lexiconbased[23]的方法解决两个问题,情绪词的意见将在评审内容敏感和冲突。

这种方法不看看当前句子本身而是使用外部信息和证据在其他句子和其他评论。雷竞技苹果下载一些语言习惯使用自然语言表达意见词的取向。这种方法需要事先需要领域知识或用户输入。这种方法是非常有效的,当句子包含多个矛盾的意见。

监督学习技术

朴素贝叶斯分类器(NB):

朴素贝叶斯网络是由非循环图只有一个父母和几个孩子。有很强的独立假设子节点的上下文中父母。独立模型可以表示:

当这两个概率进行比较,大概率更可能是实际的类标签。朴素贝叶斯分类器的优点是学习数据集的计算时间短。贝叶斯分类器通常不如其他学习算法准确。

最大熵分类器(我):

另一个分类器是最大熵分类器。最大熵的名称来自于分类器的发现概率模型是最简单和最不受限。但是它有一些特定的约束。最大熵背后的想法是,每个人都应该喜欢最统一的模型,也满足给定的约束条件。这个标识符用于将标记特性集使用编码向量。然后使用这个编码向量来计算重量为每个功能,可以结合来确定最可能的标签特性集。该分类器是由一组X{权重},用于结合的联合特性产生X{编码}的特性。每一对C {(featureset、标签)}是映射到向量编码方案。每个标签的概率计算使用以下方程:

我分类器被考夫曼[25]检测平行句子之间的任何语言对少量的训练数据。其他工具开发自动从非平行语料库中提取并行数据使用语言特定的技术或需要大量的训练数据。他们的结果表明,我分类器可以为几乎任何语言生成有用的结果。这可以允许平行语料库的形成了许多新的语言。

支持向量机分类器(支持向量机):

支持向量机(svm)是最新的监督机器学习技术。支持向量机使用的概念“保证金”——一个超平面,把两个数据类. .一个泛化误差上限可以减少利润最大化,从而最大可能的距离分离超平面两侧的实例。在图3中,X, O 2类和A、B、C三个超平面。超平面之间的分离提供了最佳的类,因为任何数据点的正常距离是最大的,所以就是分离的最大利润。对于线性可分的数据,一旦发现最优分离超平面,数据点,躺在它的边缘被称为支持向量的点解的线性组合表示只有这些点。其他数据点被忽略。因此,一个支持向量机模型的复杂性是不受影响的数量特征在训练数据中遇到。出于这个原因,支持向量机非常适合学习任务的数量特征对大训练实例的数量。

产品方面排名

在情绪方面分类,然后排名分类方面。郑等人[26]描述了概率在文学方面排名算法。

结论

这个调查论文概述在产品方面的排名技术来识别产品的重要方面。产品方面排名过程包含三个主要步骤即识别产品方面,情绪方面排名分类和方面。我们进行了一项调查,说明了分类识别和情绪方面的各种方法。

数据乍一看


图1	图2	图3

引用

Ghose用p·g . Ipeirotis,“估计产品评论的乐于助人和经济影响:挖掘文本和评论家的特点,“IEEE反式。雷竞技苹果下载"。数据中。,vol. 23, no. 10, pp. 1498–1512. Sept. 2010.

.L。m . Manevitz和m·尤瑟夫”看到下面成了svm对文档分类、“j·马赫。学习。,vol. 2, pp. 139–154, Dec. 2011.

m .胡锦涛和b .刘”,挖掘和总结顾客评论,“在Proc。SIGKDD,西雅图,佤邦,美国,2004雷竞技苹果下载年,页168 - 177。

Ohana b·蒂尔尼,“情绪分类使用SentiWordNet评论,“在Proc。离开IT&T相依,都雷竞技苹果下载柏林,爱尔兰,2009。

t·l·黄和w·林,“热项目挖掘和总结从多个拍卖网站,“IEEE ICDM Proc。5日,华盛顿特区,美国,2005年,页797 - 800。

米勒G, Beckwith R,编辑C, D,总值米勒k WordNet:在线词汇数据库。牛津大学出版社;1990年。

胡锦涛德国明竟,刘必应。挖掘和总结用户评论。雷竞技苹果下载:ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 04);2004年。

金,Hovy大肠确定意见的情绪。:学报interntional计算语言学会议(科尔的04);2004年。

穆罕默德,邓恩C,多尔b从过度生成高覆盖率的语义取向词典单词和一本同义词典。:《会议经验方法在自然语言处理(EMNLP ' 09);2009年。

NLProcessor -文本分析工具包。2000。http://www.infogistics.com/textanalysis.html

Agrawal、r和Srikant, r . 1994。挖掘关联规则的快速算法。VLDB 94年。

t·l·黄和w·林,“热项目挖掘和总结从多个拍卖网站,“IEEE ICDM Proc。5日,华盛顿特区,美国,2005年,页797 - 800。

约阿希姆·t·rocchio的概率分析与TFIDF算法用于文本分类。:在ICML会议;1997年。

Aizerman M,布雷弗曼E, Rozonoer l .势函数方法在模式识别的理论基础学习。奥特曼1964:821-37快速眼动控制。

下巴陈钱教授,曾你。质量产品评论使用信息质量评价框架。雷竞技苹果下载决策支持系统2011;50:755 - 68。

李Yung-Ming,李Tsung-Ying。从微博获取市场情报。2013年决策支持系统。

米勒,G。,Beckwith, R, Fellbaum, C., Gross, D., and Miller, K. 1990. Introduction to WordNet: An on-line lexical database. International Journal of Lexicography(special issue), 3(4):235-312.

f·李et al .,“支持结构审查挖掘和总结,在Proc。23日Int,相依。科尔,北京,中国,2010年,页653 - 661。

a . m . Popescu和o . Etzioni提取产品特性和意见的评论,“在Proc。停止/ EMNLP,温哥华BC,加拿大,2005年,页339雷竞技苹果下载 - 346。

问:苏et al .,“隐藏情绪协会在中国网络舆论矿业、“Proc。17 Int。相依WWW,北京,中国,2008年,页959 - 968。

问:张先生,x, y . Wu和l .吴“依赖解析意见挖掘,”一词在Proc。ACL,新加坡,2009年,页1533 - 1541。

x叮,b . Liu和p . s . Yu”整体lexicon-based意见挖掘方法,“在Proc。WSDM,纽约,纽约,美国,2008年,页231 - 240。

答:刘,情感分析和意见挖掘。Claypool Mogarn &出版商,圣拉斐尔、钙、美国,2012年。

Yoo Seong俊康Hanhoon,韩寒Dongil。Senti-lexicon和改进奈¨ve餐馆评论情感分析的贝叶斯算法。雷竞技苹果下载专家系统:2012;39:6000-10。

考夫曼JM。JMaxAlign:最大熵平行句子对齐工具。:程序科尔的孟买12:演示文件;2012年。p . 277 - 88

金惠林建兴郑钧咋,Yu,王濛,Tat-Seng蔡美儿,排名及其应用”“产品方面,IEEE知识ans数据工程,26卷,5号,2014年5月。