大数据的智能情感分析技术的形成

Manisha Shinde-Pawar
助理教授,部门的管理,SANGLI IMRDA巴拉蒂Vidyapeeth大学,印度浦那

文摘

许多顶尖的数码电子教科书公司采用大数据分析的形式不仅衡量顾客的购买习惯,但也为组织提供可测量的数据。分析更重要的不仅仅是点击购买按钮。分析大量的数据在内存中即时采取正确的决定是巨大的挑战。为了避免这种情况的基本需要是研究情绪在决策。数据分析可以帮助分析这样的大数据。这引发了一个渴望对情绪进行研究分析,大数据和使用一些智能算法来发现非结构化大数据的正确的观点或意见。方法使用自然语言处理技术的人工神经网络从文本数据中提取感兴趣的特性从微博客平台的实时检索,因此,为决策科学和生成相应的可执行代码得到预定的社会交际的手段。通过丰富的语义知识库使用模糊逻辑(用于健身近似)意见挖掘大数据应用程序与预定的方式,建议可以提高用户操作决策。

关键字

人工神经网络、大数据、决策科学、模糊逻辑、观点挖掘

介绍

答:新智能情感分析技术将如何帮助解决问题

而是结合和分析数据,这样你就可以采取正确的行动,在正确的时间,正确的地方。

情感分析是什么?

情绪分析(也称为意见挖掘)是指使用自然语言处理、文本分析和计算语言学识别和提取主观信息在源材料。

情绪分析旨在确定说话人的态度或一个作家对一些主题或整个文档的上下文极性。的态度可能是他或她的判断或评价(见评估理论),情感状态(也就是说,作者写作时的情绪状态),或预期的情感交流(也就是说,情感效应作者希望读者)。

情绪分析的基本任务是分类polarityof给定文本文档,句子,或功能方面的水平,是否表达了意见文档中,一个句子或一个实体特征方面是积极、消极或中性的。先进,“超越极性”情绪分类,例如,在情绪状态,如“生气”,“悲伤,”和“快乐”。

b .子任务

情绪分析的基本任务是分类的极性给定的文本文档,句子,或功能方面水平——在文档中是否表达了意见,一个句子或一个实体特征方面是积极、消极或中性的。先进,“超越极性”情绪分类,例如,在情绪状态,如“生气”,“悲伤,”和“快乐”。

c .方法和特性

情绪分析现有的方法可以分为四个主要类别:关键词定位,词法亲和力,统计方法和概念层技术。关键词定位分类文本的影响类别根据明确的存在影响词汇如快乐、悲伤、害怕,和无聊。词法亲和力不仅检测到明显的影响的话,它还赋予任意单词可能?亲和力?特定的情感。等元素从机器学习统计方法利用潜在语义分析、支持向量机、“袋词”和语义取向——逐点互信息。更复杂的方法试图检测的持有者情绪的人(即认为,情感状态)和目标(即实体影响的感觉)。在上下文和得到我的意见一直固执己见的特性,使用单词的语法关系。语法的依赖关系是通过深入解析文本。与纯粹的语法技巧,概念级别等元素从知识表示方法利用本体和语义网络,因此,也能够发现语义表达在一种微妙的方式,例如,通过分析的概念没有明确传达相关信息,但隐式与其他概念。

需要人工分析组件在情绪分析,作为自动化系统不能够分析历史趋势的个人评论,或表达的平台,通常分类错误的情绪。自动化的影响大约23%的人类正确分类的评论。

有时候,情绪和主题的结构是相当复杂的。同时,情感分析的问题是对句子的扩展和障碍非替换(比较他们不会让我的狗呆在这家旅馆和我不会让我的狗呆在这个酒店)。为了解决这个问题的基于规则和reasoning-based方法已经应用于情绪分析,包括废止逻辑编程。也有许多树遍历规则应用于语法解析树中提取的时事性情绪在开放域设置。

d .评价

情绪分析系统的准确性,原则上,它同意人类如何判断。这通常是通过测量精度和召回。不过,据研究人工评分通常同意79%的时间(评分者间信度)。因此,70%准确的计划所做的几乎和人类一样,虽然这样的准确性可能听起来不让人印象深刻。如果一个程序是“正确”的100%的时间,人类仍不同意这大约20%的时间,因为他们不同意任何答案。更复杂的措施可以应用,但情绪分析评价系统仍然是一个复杂的问题。情感分析任务返回一个规模,而不是一个二进制的判断,相关性比精确,因为它是一个更好的衡量考虑距离预测的值到目标价值。

情绪分析和Web 2.0

社交媒体的兴起,如博客和社交网络引发情绪分析的兴趣。随着评论、评分、推荐和其他形式的在线表达,网络舆论已雷竞技苹果下载经变成了一种虚拟货币为企业寻求市场产品,识别新的机会和管理他们的声誉。由于企业希望能够自动化的过程中过滤掉噪音,理解对话,识别相关内容并适当地行动,许多正在寻求情感分析领域。如果web 2.0是民主化出版,那么网络的下一个阶段可能是基于数据挖掘民主化正在发表的所有内容。

但问题是,大多数情绪分析算法用简单的术语来表达情绪的产品或服务。然而,文化因素、语言的细微差别和不同上下文使它很难把一系列书面文本变成一个简单的赞成或反对情绪。这样一个事实:人类的情绪经常不同意文本说明大任务是电脑能得到这个权利。较短的字符串的文本,它变得越困难。

f .自然语言处理

自然语言processinggives机器阅读和理解语言的能力,人类说话。一个足够强大的自然语言处理系统将使自然语言用户界面和直接从人类书面知识的获取来源,如新闻专线文本。一些简单的自然语言处理的应用程序包括信息检索(或文本挖掘)和机器翻译。

如图1所示,一个解析树表示一个句子的语法结构根据一些正式的语法。一套精确的评估标准,包括主要评价数据和评价指标,使一些球队给定NLP问题的比较他们的解决方案。这里的图1号表示与文本解析树在内存中数据结构的收集各种各样的令牌与快速文本分析能力与频率、搭配,相似性和简单regex-based搜索。TextCollection是分组的文本实例,允许你做corpus-wide计算(频率、逆文档频率等)。

g .大数据

大数据是一个包罗万象的术语对于任何收集的数据集大而复杂,所以很难处理它们使用传统数据处理应用程序。科学家们经常遇到的局限性,由于大型数据集在许多地区,包括气象、基因组学、——、复杂的物理模拟,生物和环境研究。限制也影响互联网搜索、财务和业务信息。大数据的简单定义是由山姆·马登在白皮书?从数据库大数据?是说?数据太大,速度太快,或太现有工具很难过程?。

大数据是数据超过传统数据库系统的处理能力。数据太大,动作太快,或不适合您的数据库架构的束缚。大数据是分布式数据。这意味着数据太大不能存储或处理由一个节点。已经证明了谷歌,亚马逊,Facebook,和其他人,规模化快速和经济化的方法是使用硬件分配的存储和处理大规模数据流跨多个节点,根据需要添加和删除节点。

数据是大数据的特点是体积,速度和多样性。除了这些数据的目的是创造价值,和复杂性增加的相互联系和相互依存的程度的数据。

世界人均的信息存储能力,技术自1980年代以来大约每40个月翻一番;截至2012年,每天2.5 Exabyte(2.5×1018)的数据。大型企业面临的挑战是决定谁应该拥有大数据跨整个组织的计划。

大数据需要特殊的技术来有效地处理大量的数据在可承受的运行时间。麦肯锡2011年的一份报告表明,合适的技术包括A / B测试,众包,数据融合和集成,遗传算法、机器学习、自然语言处理、信号处理、模拟、时间序列分析和可视化。

与大数据问题和挑战

以上我们已经讨论了来源,根据法案弗兰克大数据的数据可以分为:机器自动生成的,通常一个全新的数据来源(如。博客),而不是设计成友好的(例如文本流),可能没有多少值(需要关注最重要的部分)。

从上面的分类作者发现大数据

•Structured-Most传统数据源

•Semi-structured-Many大数据的来源

•Unstructured-Video数据,音频数据

根据Stephen Kaisleret。人与机器存储的数据在决策和知识发现中扮演非常重要的角色。研究者和实践者的一个主要挑战是,增长速度都快超过我们的能力:

(1)设计合适的系统有效地处理数据

(2)分析提取相关的决策意义。

根据迈克尔·库珀和彼得干预NIST与大数据相关的问题可以作为- - - - - -

•分类法、本体、模式、工作流程

•视角——背景,用例

•比特——原始数据格式和存储方法

•周期-算法和分析

•螺丝——基础设施,以支持大数据

文献综述

直到今天不同的情感分析技术实施与评价意见大数据分析的不同方面

上面的表没有。1显示了不同的分析技术的比较分析以及实施考虑基地。极性、主观检测和观点识别所有这种情绪分析中非常重要的事情。文档级别情绪分析将整个文档作为积极的和消极的声明文件。监督学习验证条件和频率、“词类”,情绪词汇和短语,情绪型换档。无监督学习技术使用固定的语法模式发生在一个意见。句子级情感分析与短语或句子的评估。基于方面的情绪分析评估实体的人气和方面。和高级分析Oracle数据库提供全面的高级分析。

研究的差距

建立分析和消费分析是两个不同的东西。真正的挑战是把人民和流程来分析非结构化大数据中提取相关的意义。因此研究人员指出一个问题设计和开发情感分析技术对非结构化大数据分析翻译成正确的决定。

问题的陈述

随着信息技术系统变得更少的单片和更多的分布式、实时大数据分析将变得更少的异国情调和更常见的地方。在这一点上,重点将从数据科学转向下一个合乎逻辑的前沿:决策科学。

研究要关注大数据研究设计一个高效的情绪分析用于非结构化大数据的技术。这样的情绪分析是非常有用的识别和预测当前和未来的趋势,产品评论,人们对社会问题的观点,某些特定事件对人们的影响。雷竞技苹果下载

目标

•进行比较研究不同的大数据分析非结构化大数据的技术。

•设计和形式更好的情绪为非结构化大数据分析技术。

•情感分析技术的推广。

•同时考虑多个参数,精度,将快速、精确和改进。这将有助于设计策略,减少业务损失。

•将广义的技术,不仅对印度教育制度有用,但对于任何领域任何大量的数据需要在最短的时间内访问。

研究方法

研究人员计划遵循设计和创建研究战略(图没有。2)。该战略集中在形成新的情感分析技术的大数据分析。

上面的图2显示了非结构化大数据的预处理和分类的方式,运用聪明的算法训练阶段,数据规范和模式识别或检查健身加入指定模式的范围。

非结构化数据的数据并不遵循大数据的指定格式。机器生成的非结构化数据包括卫星图像、科学数据如地震图像、大气数据,高能物理,照片和视频安全、监控、和交通视频、雷达和声纳数据(车辆、气象和海洋地震剖面)和人为的非结构化数据包括文本内部对贵公司所有的文本文件,记录,调查结果,和电子邮件。企业信息实际上代表着一个庞大的文本信息的百分比在当今世界,社会媒体数据产生的社会媒体平台如YouTube、Facebook、Twitter、LinkedIn和Flickr,移动数据(文本信息和位置信息),网站内容:非结构化内容,像YouTube、Flickr或Instagram。组织搅拌这些数据和一些组织提供教育、研究和处理大数据的最佳实践。然而这项技术并没有真正支持做得与它除了存储或手动分析。

如图所示的图没有。3、规范的分析自动综合大数据,多个学科的数学科学和计算科学,和业务规则,作出预测,然后建议选择决定利用预测。因此,如图。3、结构化和非结构化大数据集包括挑战捕获、分析、搜索、共享、存储、传输、可视化、和侵犯隐私等。研究人员希望将技术应用到分类数据范围分区和代替手动分析工作,形成的算法技术合成数据与模糊模式。

图3显示,它需要简化大型和复杂的数据集分解成更小的但是逻辑相关容器集,所以首先将所有文档分为固执己见和non-opinionated文档,以便只专注合成而且固执己见的文档。研究者想智能模型适用于这个合成,通过应用数据挖掘或基于模糊规则的预测类别。

然后主观和客观的句子的文档可以使用自动化相比基于规则的系统进行预测并提出决策。预测结果可以分为三个类别作为正面,负面和中性的观点。

通过设置模糊权重得到相同的特征提取和比较参数作为输入传递。如果样本数据收集、过滤和分类数据集的分析范围分区数据集可以帮助形成以有意义的方式,然后为每个数据集参数加入模糊规范可以评估的会员制规则应用于预测类别的意见(积极的,消极的,中性的)更准确地如图4所示。

将算法应用于数据集是基于分区的范围相同的功能,可以识别并获得相关意见的类别。

算法使输入和输出预测

步骤1:执行提取、加载数据仓库和数据传输任务

步骤2:开发模式和分析

步骤3:使用人工神经网络训练模式

步骤4:基于规则的模糊逻辑应用于模式。

第五步:输入:从结构化和非结构化数据中提取参数通过数据清洗和数据前处理。

第六步:过程:执行模糊模型给定输入参数的模糊性申请识别会员(即检查健身近似)。

第七步:过程:应用推理规则根据比较确定成员类别。

第八步:输出:基于培训决定分析结果匹配输入参数从训练网络。

结论

在本文中,通过使用智能智能策略运用安和模糊逻辑算法对情感分析技术。该算法简化了挑战非结构化和结构化数据预处理和人工神经网络学习和模糊逻辑地址模式可帮助确定健身近似比较不同范围为适当的决策基础。提出了智能算法简化和改善处理逻辑与速度应用到大数据分析和测试算法用于不同的业务可能是未来的研究领域。重要的智能情感分析可以帮助预测习惯,采取改善决策,为产品和服务识别和设计模式,设计组织的业务策略。

表乍一看

表1

数据乍一看


图1	图2	图3	图4

引用

EddDumbill,大数据2012年版O ' reilly,发表的O ' reilly Media, Inc ., 1005 Gravenstein高速公路北,塞瓦斯托波尔,CA 95472

Jalaj s Modha教授和头部贾亚特里s Pandi Sandip j . Modha ?自动情绪分析非结构化数据吗?,InternationalJournal of Advanced Research in Computer Science and software Engineering, Volume 3, Issue 12, December 2013 pp no (91-97)

MeenaRambocas,若昂伽马?营销研究:情绪分析的作用?2013年4月,聚全氟乙丙烯工作底稿,ISSN: 0870 - 8541

费利佩•Bravo-Marqueza马塞洛·门多萨芭芭拉Poblete ?元级别情绪模型对大型社交数据分析?2014年5月,知识BasedSystems

揭秘大数据:转变政府的商业实用指南,联邦大DataCommission TechAmerica基金会,2012年

乔治·吉尔伯特指南大数据工作负载管理的挑战,2012年5月,由Datastax。

迈克尔•科兹洛夫?大数据如何帮助教育体系,2010年1月。

http://en.wikipedia.org/wiki/Prescriptive_analytics

http://en.wikipedia.org/wiki/Big_data

http://en.wikipedia.org/wiki/Artificial_intelligence