在线刊号(2320-9801)印刷刊号(2320-9798)
Meenambigai B 印度哥印拜陀巴拉提亚大学巴拉提亚文理学院计算机科学系助理教授 |
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
情感分析是一种自然语言处理和信息提取任务,旨在通过分析大量的文档,获得作者在积极或消极的评论、问题和请求中所表达的情感。一般来说,情感分析旨在确定演讲者或作者对某个主题或文件整体的态度。近年来,互联网使用和舆论交流的指数级增长是今天情感分析背后的驱动力。Web是一个巨大的结构化和非结构化数据存储库。分析这些数据以提取潜在的民意和情绪是一项具有挑战性的任务。情感分析是一种将人们在产品评论、博客或社交网络上的观点进行分类的技术。雷竞技苹果下载它有不同的用法,受到了研究者的广泛关注。在本研究中,我们对基于产品特征的表情符号在情感分析中的应用感兴趣。换句话说,我们更感兴趣的是识别对产品特性所表达的意见极性(积极、中性或消极)。这被称为基于产品特征的情感分析。 Sentiment Analysis can be performed on both supervised and unsupervised dataset. Sentiment Analysis identifies the phrases and emoticons in a text that bears some sentiment. The sentiment can be objective facts or subjective opinions. It is necessary to distinguish between the two. It identifies the polarity and degree of the sentiment. Sentiments are classified as objective (facts), positive (denotes a state of happiness, bliss or satisfaction on part of the writer) or negative (denotes a state of sorrow, dejection or disappointment on part of the writer). The sentiments can further be given a score based on their degree of positivity, negativity or neutral. Whenever emoticons are used, their associated sentiment dominates the sentiment conveyed by text and forms a good proxy for intended sentiments.
关键字 |
||
博客数据,特征提取,表情符号,观点类型 | ||
介绍 |
||
大型数据集现在可以在线获得,它们可以是数字或文本文件,也可以是结构化、半结构化或非结构化。从这些数据中应用和提取有用信息的方法和技术一直是许多研究者关注的焦点。根据不同的数据类型,提出了许多不同的信息检索技术和工具。情感分析,又称意见挖掘,是识别和提取源材料中的主观信息,这些信息可以是积极的、中性的或消极的。情感分析的研究人员主要关注两个问题:检测文本是主观的还是客观的,确定主观文本是积极的还是消极的。这些技术依赖于两种主要方法:基于机器学习的监督分类和无监督分类。情感取向的观点极性计算是基于标记的计算,它基于具有先验极性的单词小列表计算单词的极性(积极或消极)得分。 | ||
在情感分析中,对特征值使用了许多加权值,如词频(TF)、词汇存在度、词频-文档逆频率(TF -idf)。基于上述分析,我们对基于产品特征的情感分析进行了无监督学习和有监督学习。第一个实验是无监督学习,通过应用不同的语言规则和约束来计算每个产品特征的情感得分。本实验使用的产品特征提取自无监督学习实验。 | ||
在面对面的交流中,情绪通常可以从微笑等视觉线索中推断出来。然而,在以计算机为媒介的纯文本通信中,这样的视觉线索就丢失了。多年来,在以计算机为媒介的交流中,人们已经接受了所谓的表情符号,将其作为面对面视觉线索的替代品,比如虚拟的观点表达。在这种情况下,我们将表情符号定义为文本中使用的视觉线索,以取代正常的视觉线索,如微笑来表达、强调或消除歧义。年代的情绪。表情符号通常由“:”、“=”、“-”、“)”或“(”等排版符号组成,通常代表面部表情。表情符号既可以横着看,比如“:-(”(悲伤的脸),也可以正常地看,比如“()”(快乐的脸)。 | ||
2相关工作 |
||
文本情感分析 |
||
已经建立了几个系统,试图从产品评论中量化意见。雷竞技苹果下载他们的研究结果表明,机器学习技术比简单的计数方法表现得更好。它们实现了大约83%的极性分类准确度。他们会识别评论中的哪些句子是主观的,以提高情绪分析。在这个系统中,他们不做这种区分,因为我们认为事实和观点都有助于公众对新闻实体的看法。他们专注于识别情感表达的方向和确定这些情感的目标。浅解析识别目标和情感表达;后者被评估并与目标相关联。我们的系统也分析当地的情绪,但目标是更快、更粗略:我们对所有实体的情绪都使用相同的句子,而不是特定的目标。他们接着使用特征项提取器。 For given item, the feature extractor identifies parts or attributes of that item, e.g., battery and lens are features of a camera. | ||
表情符号 |
||
非语言线索被认为是人们理解与他们交流的人的意图和情绪的重要指标。因此,将这些发现转化为以计算机为媒介的交流似乎并不太牵强,如果不是因为明文计算机为媒介的交流没有给非语言线索留下太多空间的话。然而,以电脑为媒介的交流用户已经找到了使用表情符号来克服缺乏个人接触的方法。雷竞技网页版1982年9月19日,斯科特·法尔曼教授在卡内基梅隆大学计算机科学公告栏上的一条信息中使用了第一个表情符号。在他的信息中,Fahlman建议使用":-)" an d ":-("分别区分笑话f r从mo res e r i o us ma t t e r s。没过多久,表情符号的现象就在更大的群体中传播开来。人们开始用普通键盘上的字符组成图形符号来发送叫喊、拥抱和亲吻。因此,非语言线索出现在以计算机为媒介的交流中。然而,这些线索在概念上不同于面对面交流中的非语言线索,比如笑和哭,通常被认为是面对面交流中表达自己的非自愿方式,而在以计算机为媒介的交流中,它们各自的等等物“:-)”和“:-(”的使用是紧张的。因此,表情符号使人们能够表示微妙的情绪变化,表示讽刺、讽刺和笑话,并表达、强调或消除他们(预期的)情绪,甚至可能比面对面交流中的非语言线索更有效。因此,从表情符号中获取信息似乎是提高情绪分析水平的可行策略。 Yet, the question is not so much whether , b ut rather how we should account for emoticons when analysing a text for sentiment. | ||
3算法 |
||
现有方法的主要问题在于匹配属性值。由于这些值是由许多单词组成的文本,并且通常是嘈杂的,因此只接受精确的匹配是具有误导性的。显然,区分“桌面?”以及“台式电脑?”当我们尝试使用像“产品描述?”有时由完整的句子组成。在该模型中,每个提取的项都被视为一个独立的属性。为了处理这个模型,我们将属性的值重新定义为一组项。 | ||
其中t是产生的项。那么我们可以合理地假设 | ||
其中j, i,k, n, c, a, t表示属于cj类的编目中tik在ai中出现的次数。同理,c中的(cj)j a表示属于cj类的编目中ai中所有术语的频率之和。n, a表示属性ai中出现的术语总数。当训练数据中没有一项与tik匹配时,t出现在cj中。分类器重新表述如下。 | ||
节点下面的文本表示输入目录的值。图(1)为拉伸后的结构。在图(1)中,术语是由每个属性生成的。使用训练数据,我们计算所有参数。它们存储在表中,并在执行分类时检索。 | ||
给定一个包含多个功能和不同意见的产品评论,目标是提取描述目标功能的意见表达,并将其分为积极或消极。目标可以概括为: | ||
•从给定的评论中提取所有特征 |
||
在缺乏关于评审领域的任何先验信息(以属于该领域的未标记或标记数据的形式)的情况下,这将给出评审中需要删除的潜在特性的列表,以获得确切的特性。 | ||
•提取与目标特征相关的意见词 |
||
观点词是形容词,如恨,爱。单纯的方法,比如提取最接近目标特征的观点词,当句子有多个特征和分布的情绪时,效果不太好。在上面的例子中,“可怜”和“不错”分别是指电池续航时间和多媒体功能。 | ||
•将提取的意见词分为积极的,消极的或中性的 |
||
从博客数据中检索每个单词,并将其与单词袋(BoW)进行比较,这里是由积极和消极单词组成的两个文件,如果出现匹配,则相应的计数将增加。最后,如果正计数大于博客评论,则声明为正评论;如果负计数大于博客评论,则声明为负评论。如果两个计数相等,则该博客评论被声明为中立评论。 | ||
四、伪代码 |
||
步骤1:从社交网络检索博客文章。 | ||
步骤2:从给定的评审中提取所有的特性 | ||
第三步:现在把特征分开为文本和表情符号。 | ||
步骤4:提取与目标特征相关的意见词 | ||
第五步:将提取的意见词分为积极的、消极的和中性的。 | ||
第六步:现在,计算肯定词和否定词的总数。 | ||
步骤7:对所有文本重复步骤2到步骤6。 | ||
步骤8:结束。 | ||
五、仿真结果 |
||
对不同公司的各种产品进行情感类型分析后,将结果存储在数据库中。一旦我们点击“情感分析”按钮,结果就会以表格形式显示,包括积极的、消极的和中性的计数,以及检索到的用于分析的评论总数。 | ||
六、结论及未来工作 |
||
情感分析是根据文本所包含的情感对文本进行分类。重点介绍了一个典型的情感分析模型,包括数据准备、评论分析和情感分类三个核心步骤,并描述了这些步骤中涉及的代表性技术。情感分析是文本挖掘和计算语言学中一个新兴的研究领域,近年来受到了广泛的关注。情感分析已被用于支持业务和客户决策,通过协助用户探索客户对他们感兴趣的产品的意见,最近讨论了情感分析的潜在用途。未来的研究应探索意见和产品特征提取的复杂方法,以及能够解决评级推理中有序标签属性的新分类模型。利用情感分析结果的应用程序预计将在不久的将来出现。 | ||
由于我们的结果很有希望,我们设想了未来工作的几个方向。首先,我们希望进一步探索和利用表情符号和文本的相互作用,例如在使用表情符号来加强文本已经传达的情感的情况下。未来研究的另一个可能方向包括将我们的研究结果应用于多语言环境,从而研究我们的方法在跨语言环境下的鲁棒性。此外,未来的研究可以集中在其他文本集合上,以验证我们的发现,例如,具体的案例研究。最后,我们希望利用文本的结构和语义方面,以便在基于表情符号的情绪分析中识别重要和不重要的文本范围。 | ||
我们工作的主要贡献在于我们分析了表情符号在传达文本时通常所扮演的角色。美国的整体情绪。结果表明,人们通常在自然语言文本中使用表情符号来表达、强调或消除他们在特定文本片段中的情绪,从而使它们成为更好的本地代理。S有意的整体情绪比文本线索。 | ||
表格一览 |
||
|
||
数字一览 |
||
|
||
参考文献 |
||