所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

大数据智能情感分析技术的形成

Manisha Shinde-Pawar
系助理教授管理, IMRDA, SANGLI, Bharati Vidyapeeth大学,印度浦那
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

许多顶尖的电子教科书公司都以分析的形式使用大数据,不仅测量客户的购买习惯,还为组织提供可测量的数据。分析比点击购买按钮更重要。分析内存中瞬间的海量数据以做出正确的决策是一个巨大的挑战。为了避免这种情况,基本的需要是在做决定时研究情绪。这里数据分析可以帮助分析这样的大数据。这就迫切需要开展情感分析和大数据的研究,利用一些智能算法从非结构化的大数据中发现正确的情感或观点。该方法利用人工神经网络的自然语言处理技术,实时从微博平台检索的文本数据中提取感兴趣的特征,从而为决策科学生成适当的可执行代码,获得预定的社交手段。因此,通过使用模糊逻辑(适应度近似)丰富语义知识库,以预定的方式进行大数据应用中的意见挖掘,可以改善建议用户的行为决策。



关键字

人工神经网络,大数据,决策科学,模糊逻辑,观点挖掘

介绍

A.新的智能情感分析技术将如何帮助解决问题
它是关于组合和分析数据,以便您可以在正确的时间和正确的地点采取正确的行动。

什么是情感分析?

情感分析(也称为意见挖掘)是指利用自然语言处理、文本分析和计算语言学来识别和提取源材料中的主观信息。
情感分析旨在确定演讲者或作者对某个主题或文档整体上下文极性的态度。态度可以是他或她的判断或评价(见评价理论),也可以是情感状态(即作者写作时的情绪状态),也可以是有意的情感交流(即作者希望对读者产生的情感影响)。
情感分析的一个基本任务是在文档、句子或特征/方面层面对给定文本的极性进行分类——无论在文档、句子或实体特征/方面中表达的观点是积极的、消极的还是中性的。例如,高级的“超越极性”情绪分类着眼于“愤怒”、“悲伤”和“快乐”等情绪状态。
b .子任务
情感分析的一个基本任务是在文档、句子或特征/方面层面对给定文本的极性进行分类——无论在文档、句子或实体特征/方面中表达的观点是积极的、消极的还是中性的。例如,高级的“超越极性”情绪分类着眼于“愤怒”、“悲伤”和“快乐”等情绪状态。
C.方法与特点
现有的情感分析方法可以分为四大类:关键词发现、词汇亲和力、统计方法和概念级技术。关键字发现根据情感类别对文本进行分类,这些情感类别基于明确的情感词,如快乐、悲伤、害怕和无聊。词汇亲和性不仅能检测出明显的影响词,还能给任意词赋予可能的亲和性。对特定的情绪。统计方法利用了机器学习的元素,如潜在语义分析、支持向量机、“单词包”和语义取向-点互信息。更复杂的方法试图检测情感的持有者(即保持这种情感状态的人)和目标(即感受这种情感的实体)。利用词语的语法关系,在语境中挖掘观点,得到观点的特征。语法依赖关系是通过对文本的深入分析得到的。与纯粹的语法技术不同,概念级方法利用来自知识表示的元素,如本体和语义网络,因此,也能够检测以微妙的方式表达的语义,例如,通过分析没有显式传达相关信息的概念,但这些概念与其他这样做的概念隐含地联系在一起。
在情感分析中需要人工分析组件,因为自动化系统无法分析单个评论者或平台的历史倾向,并且经常在他们表达的情绪中被错误地分类。自动化影响了大约23%的由人类正确分类的评论。
有时,情感和话题的结构相当复杂。此外,情感分析的问题在句子扩展和停词替换方面是非单调的(比较他们不会让我的狗住在这家酒店和我不会让我的狗住在这家酒店)。为了解决这个问题,许多基于规则和基于推理的方法被应用到情感分析中,包括可Defeasible Logic Programming。此外,在开放域环境下,还对语法解析树应用了许多树遍历规则来提取情感的话题性。
d .评价
情感分析系统的准确性,原则上是指它与人类判断的一致程度。这通常通过精度和召回率来衡量。然而,根据研究,人类评分者通常同意79%的时间(评分者之间的可靠性)。因此,一个准确率为70%的程序几乎和人类一样好,尽管这样的准确率听起来并不令人印象深刻。如果一个程序在100%的时间里是“正确的”,人类仍然会在20%的时间里不同意它,因为他们对任何答案都不同意。可以采用更复杂的测量方法,但情绪分析系统的评估仍然是一件复杂的事情。对于情感分析任务返回的是一个量表而不是二进制判断,相关性是比精度更好的衡量标准,因为它考虑了预测值与目标值的接近程度。
E.情感分析和Web 2.0
博客和社交网络等社交媒体的兴起激发了人们对情感分析的兴趣。随着评论、评分、推荐和其他形式的在线表达的激增,网络雷竞技苹果下载意见已经成为企业营销产品、发现新机会和管理声誉的一种虚拟货币。随着企业寻求将过滤噪音、理解对话、识别相关内容并适当采取行动的过程自动化,许多企业现在将目光投向了情感分析领域。如果web 2.0是关于民主化出版的,那么web的下一阶段很可能是基于所有正在出版的内容的民主化数据挖掘。
问题在于,大多数情感分析算法使用简单的术语来表达对产品或服务的情感。然而,文化因素、语言的细微差别和不同的语境使得把一串书面文本变成简单的赞成或反对的情绪变得极其困难。人类经常对文本的情感产生分歧,这一事实说明,计算机要做到这一点是一项多么艰巨的任务。文字越短,难度越大。
F.自然语言处理
自然语言处理赋予机器阅读和理解人类语言的能力。一个足够强大的自然语言处理系统将能够实现自然语言用户界面,并直接从人类书写的来源(如新闻专线文本)获取知识。自然语言处理的一些直接应用包括信息检索(或文本挖掘)和机器翻译。
如图1所示,解析树表示一个句子按照某种形式语法的句法结构。一套精确的评估标准,主要包括评估数据和评估指标,使几个团队能够将他们的解决方案与给定的NLP问题进行比较。在这里,图1表示了包含各种集合标记的内存中的文本的解析树,具有基于频率、搭配、相似性和简单的基于正则表达式的搜索的快速文本分析能力。TextCollection是一个文本实例的分组,它允许你做语料库范围内的计算(频率,逆文档频率等)。
G.大数据
大数据是一个包罗万象的术语,指的是任何庞大而复杂的数据集集合,以至于很难使用传统的数据处理应用程序来处理它们。在许多领域,包括气象学、基因组学、连接组学、复杂的物理模拟以及生物和环境研究,科学家经常会遇到大数据集的限制。这些限制也影响了互联网搜索、金融和商业信息学。大数据最简单的定义是Sam Madden在白皮书中给出的?从数据库到大数据?对于现有工具来说,数据太大、太快或太难处理。
大数据是指超过常规数据库系统处理能力的数据。数据太大,移动太快,或者不符合数据库架构的限制。大数据是分布式数据。这意味着数据非常庞大,不能由单个节点存储或处理。谷歌、亚马逊、Facebook和其他公司已经证明,快速且经济地扩展的方法是使用商用硬件将大量数据流的存储和处理分布到几个节点上,并根据需要添加和删除节点。
如果数据以体积、速度和多样性为特征,就被称为大数据。除此之外,数据的目的是创造价值,而复杂性由于数据的相互联系和相互依赖的程度而增加。
20世纪80年代以来,全世界的人均信息存储能力大约每40个月就会翻一番;截至2012年,每天有2.5艾字节(2.5×1018)的数据被创建。大型企业面临的挑战是决定谁应该拥有横跨整个组织的大数据项目。
大数据需要特殊的技术来在可容忍的时间内有效地处理大量数据。麦肯锡2011年的一份报告建议,合适的技术包括A/B测试、众包、数据融合和集成、遗传算法、机器学习、自然语言处理、信号处理、仿真、时间序列分析和可视化。

大数据的问题与挑战

如上所述,根据Bill Frank的说法,大数据中的数据可以分为:由机器自动生成的数据,通常是一个全新的数据来源(例如。博客),设计不是友好的(例如文本流),可能没有太多的价值(需要关注重要的部分)。
从以上分类笔者发现大数据为
•结构化——大多数传统数据源
•半结构化——大数据的多种来源
•非结构化——视频数据、音频数据
Stephen Kaisleret说。机器存储的数据在决策和知识发现中起着非常重要的作用。IT研究人员和从业者面临的一个主要挑战是,增长速度迅速超过了我们的能力:
(1)设计适当的系统以有效地处理数据
(2)对其进行分析,提取相关的决策意义。
根据NIST的Michael Cooper和Peter Mell的说法,与大数据相关的问题可以给出如下
•分类法、本体、模式、工作流
•视角——背景、用例
•位-原始数据格式和存储方法
•循环——算法和分析
螺丝——支持大数据的基础设施

文献综述

到目前为止,不同的情感分析技术被应用于大数据意见分析的不同评价方面
以上表格编号。1展示了不同感知分析技术的比较分析,以及它在实现基础上所考虑的问题。在这种情感分析中,极性、主观检测和观点识别都是非常重要的事情。文档级情感分析将整个文档分为积极陈述文档和消极陈述文档。监督式学习验证术语和频率、“词性”、“情感词汇和短语”、“情感转换器”。无监督学习技术使用出现在一个观点中的固定语法模式。句子层次的情感分析与短语或句子评价相关。基于方面的情感分析评价实体的情感和方面。而Oracle高级分析提供了数据库进入全面的高级分析。

研究的差距

创造分析和消费分析是两码事。真正的挑战是改造人员和流程,以分析非结构化大数据,提取相关意义。因此,研究人员指出了一个问题,即为非结构化大数据设计和开发情感分析技术,将分析转化为良好的决策。

问题陈述

随着信息技术系统从单片化走向分布式,实时大数据分析将不再那么新奇,而变得更加普遍。在这一点上,焦点将从数据科学转移到下一个逻辑前沿:决策科学。
研究人员希望将大数据作为研究的重点,为非结构化大数据设计一种高效的情感分析技术。这种情绪分析对于识别和预测当前和未来的趋势、产品评论、人们对社会问题的看法、某些特定事件对人们的影响非常有用。雷竞技苹果下载

目标

•针对非结构化大数据开展不同大数据分析技术的对比研究。
•为非结构化大数据设计并形成更好的情感分析技术。
•情感分析技术的泛化。
•同时考虑多个参数,具有准确性,期望快速,精确和改进。这将有助于制定战略,减少业务损失。
•这些技术将被推广,不仅对印度教育系统有用,而且对需要在最短时间内访问大量数据的任何领域都有用。

研究方法

研究人员已计划遵循设计与创造研究策略(图no。2)战略重点是形成大数据分析的新情感分析技术。
上图2展示了对非结构化大数据进行预处理和分类的方式,从而进行分阶段的算法训练、数据规范和模式识别,或者对指定的模式范围检查隶属度的适合度。
非结构化数据是指大数据不遵循特定格式的数据。机器生成的非结构化数据包括卫星图像、科学数据(如地震图像、大气数据和高能物理数据)、照片和视频(如安全、监视和交通视频)、雷达或声纳数据(车辆、气象和海洋地震剖面)和人为生成的非结构化数据包括公司内部的文本文档、日志、调查结果和电子邮件中的所有文本。企业信息实际上代表了当今世界文本信息的很大一部分,社交媒体数据是由YouTube、Facebook、Twitter、LinkedIn和Flickr等社交媒体平台生成的,移动数据(文本消息和位置信息),网站内容:非结构化内容,如YouTube、Flickr或Instagram。一些组织收集这些数据,一些组织提供教育、研究和处理大数据的最佳实践。然而,除了手动存储或分析之外,该技术并不能真正支持对其进行太多操作。
如图编号所示。3、规定性分析自动综合大数据、数学科学和计算科学的多个学科以及业务规则,进行预测,然后提出决策选项,以利用预测。如图1所示。3、结构化大数据和非结构化大数据的采集包括捕获、分析、搜索、共享、存储、传输、可视化、侵犯隐私等挑战。研究人员希望应用范围划分技术对数据进行分类,而不是人工分析,形成算法技术,得到综合数据,并与模糊模式进行比较。
从图3可以看出,需要将庞大而复杂的数据集简化为较小但逻辑上相关的容器集,因此首先将所有文档分为有观点的文档和无观点的文档,从而只关注有观点的文档进行进一步综合。研究人员希望将智能模型应用于此综合,通过数据挖掘或基于模糊规则的方法来获得类别的预测。
然后使用基于规则的自动化系统对文档的主观和客观句子进行比较,从而做出预测并提出决策建议。预测结果可以分为正面、负面和中性三类。
通过设置模糊权值,对输入参数进行相同特征提取和比较。如果收集样本数据,对数据集进行过滤和分类,用于分析,范围划分有助于以有意义的方式形成数据集,然后对每个数据集的模糊规范参数隶属度进行评估,应用基于隶属度的规则更准确地预测其意见类别(积极,消极,中立),如图4所示。
通过对基于范围划分的相同特征的数据集进行算法划分,可以识别并推导出相关的意见类别。
给出输入和得到输出预测的算法
步骤1:在数据仓库上执行数据提取、加载和传输任务
步骤2:开发模式和分析
第三步:利用人工神经网络训练模式
步骤4:对模式应用基于规则的模糊逻辑。
步骤5:输入:通过数据清洗和数据预处理,从结构化和非结构化数据中提取参数。
步骤6:过程:执行模糊模型,对给定输入参数的隶属度进行模糊化识别(即检验适应度近似)。
步骤7:流程:根据识别出的成员类别的比较,应用推理规则。
步骤8:输出:根据训练结果,从训练过的网络中确定匹配输入参数的分析结果。

结论

本文利用智能智能策略,将神经网络和模糊逻辑算法应用于情感分析技术。该算法简化了非结构化和结构化数据预处理的挑战,人工神经网络解决了模式学习的问题,模糊逻辑有助于确定适合度近似比较,以确定不同范围的决策基。智能算法在处理逻辑和速度上的简化和改进应用于大数据分析和不同商业目的的算法测试可能是未来的研究领域。重要的智能情绪分析可以帮助预测习惯,改进决策,识别和设计产品和服务的模式,设计组织业务政策。

表格一览

表的图标
表1

数字一览

数字 数字 数字 数字
图1 图2 图3 图4

参考文献











全球科技峰会