调查发现在语音情感检测知识

年代。Jagadeesh这位Soundappan, Dr.R.Sugumar

研究学者,CSE称,圣彼得大学印度钦奈
副教授,CSE称,Veltech Multitech Dr.RR Dr.SR工程学院,印度钦奈

文摘

知识发现是指寻找一些相关信息的批量的数据量。语音情感识别是基于知识发现的一个主要地区。本研究工作进行了使用四个情感即悲伤快乐愤怒和侵略性。这项研究工作具有两个部分即训练和测试的部分。培训部分将由演讲的升级文件与数据库系统。文件上传后,系统将用一种算法提取语音的特征文件命名MFC(三)MFCC算法提取特征向量的演讲文件然后最大值,最小值和平均值的特征向量将保存到数据库中。过程将重复一次又一次,直到最后一个类别是没有实现。培训部分完成后,测试部分将会启动。测试部分包括两个分类器的分类过程。第一个分类器是神经网络的反向传播前馈神经网络将用于处理。摘要利用是最可用情感分类器的分类。摘要利用过程中最初的隐层一直保持20和最小的迭代次数是5。一些以前的工作也已经实现在此之前提出研究工作越来越喜欢使用摘要语言分类的组合MFCC,摘要利用同样的特性集尚未提出。显示工作的有效性,一直重复同样的过程支持向量机和准确性将测量的情况。

关键字

MFCC、支持向量机、神经网络。

介绍

音频矿业

音频的采矿技术内容的音频信号可以自动分析和搜索。最常用的自动语音识别领域,在分析试图识别中的任何演讲音频。音频通常会由一个语音识别系统进行处理,以识别词或音位单位可能发生的口语内容。这些信息可以立即使用预定义的搜索关键字或短语(实时“发现”系统),或语音识别的输出可能存储在索引文件中。一个或多个音频矿业索引文件可以加载在日后为了运行搜索关键字或短语。搜索的结果通常会击中,区域内的文件,都是不错的选择关键词的匹配。用户然后可以听音频对应于这些打击,以验证如果正确匹配。

音频领域的采矿系统语音识别通常分为两组:那些使用大词汇连续语音Recognisers (LVCSR)和那些使用语音识别。网络、数据库和其他数字化信息仓库包含相互体积的音频内容。例如新闻、体育赛事、电话交谈、会议记录、网络广播、纪录片档案等。用户希望充分利用这种材料通过搜索和索引的数字化音频内容。过去,企业不得不手动创建和分析的书面记录音频内容因为使用计算机识别,解释和分析数字化演讲是困难的。然而,更快的微处理器的发展,更大的存储容量,和更好的语音识别算法使得音频矿业容易。

语音识别不需要使用复杂的语言模型:电话识别可以有效地运行没有知识的手机以前认识。相比之下,哪些词的知识以前公认的实现良好的识别精度是至关重要的在一个大的词汇系统。LVCSR方法必须使用复杂的语言模型,从而导致更大的计算负载在索引阶段明显慢LVCSR方法和结果的索引速度。语音音频挖掘软件可以指数音频数据实时的约100倍,相比速度只有几倍LVCSR系统的实时。依赖复杂的语言模型也意味着数据用于训练LVCSR系统必须匹配它将使用的数据。

音乐音频矿业

音乐音频矿业(也称为音乐信息检索)与感知重要特征的识别一段音乐旋律、和声或有节奏的结构。搜索就可以找到音乐片段进行类似的旋律,谐波和/或有节奏的特点。

语音处理:演讲是一个示例的用户的声音,他可以使用的分类数据。演讲可以记录通过语音记录器或软件,整个的工作已经完成。有不同的语音信号的属性。在我们进入语音处理之前,让我们了解什么演讲挖掘。有几个方面需要知道他们的说明如下。

)数据库:数据库是数据的集合在这个提议我们使用数据库的语音样本。在数据库中我们发现语音信号的属性,然后将它们存储到数据库中。问题是,我们要如何在数据库中存储成百上千的文件。过程如下。首先我们将获取声音样本的属性。所有这些属性是必需的计算,然后将被存储到一个数组中。数组将作为文件将。我们将获取特性和年底将平均,然后将它们存储到数据库中每个类别的声音我们即开心,悲伤,愤怒和恐惧。

b)声音文件:声音文件的文件将被处理的特征提取。

c)属性:当我们将处理声音文件的属性提取的特征提取有几个可以使用算法。在这种方法中我们使用MFCC算法训练的目的。

文献调查

锡铺设新,说魏Foo, Liyanage c . De Silva[1]说,情感有广义和狭义的效果。广义反映了潜在的长期情感和狭义上是指心灵的短期激励,促使人们采取行动。在情感自动识别,机器不会区分,如果情绪状态是由于长期或短期效应,只要是反映在演讲或面部表情。情感的输出自动识别器自然会由标签的情感。选择一套合适的标签是很重要的。语言学家有一个大的词汇的术语描述的情感状态。Schubiger(1958)和OConnor和阿诺德(1973)使用300标签之间的国家在他们的研究。调色板理论(考伊et al ., 2001)表明,基本类别识别作为初选和混合做也许是为了生产其它情绪相似的混合三原色产生所有其他颜色。包括经常使用的主要情绪,快乐、悲伤、恐惧、愤怒、惊讶和厌恶。他们通常被称为典型的情绪。 Although these archetypal emotions cover a rather small part of emotional life, they nevertheless represent the popularly known emotions and are recommended for testing the capabilities of an automatic recognizer

沈Yixiong锅,沛沛沈,力平[2]根据他们的语音情感识别目标自动识别一个人的情绪状态从他或她的声音。它是基于语音信号的生成机理的深入分析,从扬声器中提取一些特征包含情感信息的声音,和采取适当的模式识别方法来识别情绪状态。像典型的模式识别系统,我们的语音情感识别系统包含四个主要模块:语音输入,特征提取,基于SVM的集群,情感输出(图)。

Muzaffar汗[3]按他们的意见的演讲包括几种因素对演讲者,上下文,演讲,如情绪、压力、方言和口音,是重要的问题。特征选择的基本原理是新的或减少特性可能基本功能做得更好,因为我们可以从基本特性集消除无关的特性,小值减少,大值增加。这也可以减少维数,否则hurtthe模式分类器的性能。在这项工作中,我们使用向前选择(FS)方法。首先,FS初始化控制的最好特性对选择标准从整个特性集。这里,通过最近的邻居规则聚类精度标准,通过分析方法估计和准确率。随后的功能添加从剩下的功能最大化的聚类精度。在这项工作中,我们尝试了两套rank-ordered熵从共振峰频率选择特性如表1示,男性和女性的数据有相似的特性在他们最好的特性集。

何塞·s .换上[4]建立了它的位置作为一个采矿系统的建模技术。本文进一步表明,显著的好处可以通过实现支持向量机实现自定义或semi-custom综合开采。好处包括有效的利用硅区和imp跳水模拟。一个众所周知的例子是演讲给灯控制器之前由解放军实现。常规SVM布局,紧凑,适用于自动生成。包括一个示例坏的电路仿真。

艾伦Mishchenk [5] pdivides解决问题的一种有效的方式表达的采矿理论。本教程介绍ZDDs读者与布尔代数backgdivund和嗯& SVM与ZDDs没有任何经验。教程包括计算的案例研究被认为是联盟的两套,所有质数的生成布尔数据集,和计算Irredundant Sum-of-Products的不完全指定

布尔数据集,后者也许是最实用和有用ZDD算子。本教程包含完整的带注释的源代码实现ZDD-based程序包C CUDD决定图。

刘东鑫[6]可靠性和灵敏度分析是一个关键的组件在设计、优化和维护的音频采矿系统。巨大的研究成果已经花费在这个领域,但两个实际问题,即不完全覆盖(IPC)和共同事业失败(CCF),一般都错过了或者在现有的方法没有充分考虑。在本文中,一个有效的方法充分结合了IPC和CCF成音频矿业可靠性和灵敏度分析。挑战是允许多个失效模式intdivduced IPC和同时应付多个依赖CCF造成的故障分析。应对上述挑战我们的方法是单独考虑IPC和CCF相结合的解决方案,基于减少命令嗯(嗯& SVM)。由于HMM和SVM的本质和IPC和CCF的解决方案组合的分离,我们的方法具有计算复杂度低,易于实现。音频样本采矿系统分析来说明我们的方法的基础和优势。一个软件工具,我们为容错音频矿业开发的可靠性和灵敏度分析。

比尔李[7]描述的新方法直接合成危害自由多级逻辑实现一个给定的逻辑规范。方法是基于HMM和SVM / (K均值),和自然适用于输出逻辑数据集。给定一个incompletely-specified(输出)布尔数据集,这种方法pdivduces多级逻辑音频矿业是一组指定的邮件多变化。我们假设一个任意(无限)门和线延迟模型在纯延迟(PD)的假设,我们允许multipleinput变化,我们考虑下静态和动态风险基本形式的假设。我们的框架是这样一般的和强大的。虽然并不总是可以生成邮件实现使用我们的技术,我们表明,在某些情况下,邮件邮件时可以生成多级实现两级表示无法找到。这个问题通常被认为是一个很困难的问题,但它asynchdivnous设计领域中具有重要的应用价值。方法已经自动化,应用于许多例子。我们得到的结果非常pdivmising。

Mitra a[8]基于优化音频数和路径长度(SVM)表示的音频数据集。优化是通过识别一个好的顺序输入变量的数据集。这会影响的结构产生K的意思。共享的节点数和最长路径长度嗯发现使用识别输入排序要优于现有的结果。实现更有效的更大的基准。算法参数调整适当地探索更大范围的搜索空间在合理的计算时间。

3所示。问题识别

声音文件的问题定义包括分类的聚类精度。为此我们需要实现MFCC和神经网络组合算法。

研究的差距

情感检测系统已经运行从一个长十年和不同类型的分类器已经使用在相同的场景和时间复杂度的增加,研究人员建立了新的分类器进行测试。如神经网络作为分类器的工具。因此这一领域的研究将涉及语音文件使用新的分类方法的分类。

有几种分类和聚类机制,采取有效演讲的场景处理和信息隐藏或安全。我们已经在这个项目工作四段的言论被测试的范围,从他们到底属于哪一类。

提出工作

在这个科学的世界,一切都走向数字化。语音处理领域已经成为一个广泛的研究领域。情感在语音处理是燃烧领域检测。检测语音的运动并不是那么容易,因为它似乎。许多不同的研究人员尝试他们的方法提出但准确性的主要因素是处理。基本问题是检测的情感从音高文件被检测到。执行这样的操作我们需要对音频文件进行分类的基础上,下面的向量空间。

)频率映射/音频文件。

b)音频文件的长度。

c)类型的音频文件的内容。

创建一个预定义的集群音频文件的以下标准。

1)积极的声音

2)恐惧的声音

3)快乐的声音

4)忧郁的声音

目的:

一)提高分类的准确性不同类别的声音文件。

b)来增强用户的分类精度验证。

c)来比较当前系统与其他结果的准确性。

方法:

这种方法的方法论可以声明如下。

在这种方法中有两个部分。第一部分叫做训练部分和下一节叫做测试部分。

培训部分:培训部分中我们将采取五十声音每个类别的采集样本进行分类。在这个场景中,我们将获取每个声音样本的属性后,把它们放在一个数组;我们将储存的平均每个属性的每个部分到数据库中。为了实现这一特定的任务,我们将使用MFCC算法。

测试部分:测试显然是这个词,我们测试文件。现在又有几个算法,可以用作测试模块。这里我们使用SVM(支持向量机的测试与神经网络的结合)

分类将4个类别的基础上完成的

一)快乐

b)伤心

c)积极

d)恐惧

并

语音情感识别是语音处理的最新挑战之一。检测语音的运动并不是那么容易,因为它似乎。除了人类的面部表情语言已被证明是最有前途的方法之一,人类情感的自动识别。许多不同的研究人员已经尝试了他们的方法在这一领域但准确性的主要因素是处理。作为结论,本研究论文将涉及语音文件使用新的分类方法的分类与组合的MFCC等算法,支持向量机和神经网络。

这将增强不同类别的声音文件的准确性和提高用户的分类精度验证。准确性会评估通过比较当前系统与其他结果的准确性。

引用

弗兰克Pfenning“课堂讲稿嗯15 - 122:必要的计算原理”课19 10月28日,2010年。
米切尔a·桑顿密西西比州立大学“部分嗯和SVM”支持部分由美国国家科学基金会授予ccr - 0000891。
艾伦Mishchenko“Zero-SuppressedHMM概论和SVM”6月8日,2001年。
刘东鑫”AnEfficient音频采矿方法的可靠性和灵敏度分析”IEEE系统,人,和CYBERNETICS-PART:系统和人类,38卷,没有。2008年1月1日。
斯戴“邮件合成多级逻辑受到嗯多变化和SVM”IEEE集成电路与系统的计算机辅助设计,14卷,没有。1995年8月8日。
将S“变量排序sharedHMM目标节点数和路径长度使用粒子群优化技术”电脑和数码技术,体积:6问题:6。
谢尔登·b·埃克斯“嗯& SVM《IEEE计算机- TC, 27卷,没有。6,509 - 516年,1978页。
Khedija Arour“嗯发现低阈值和SVM支持频繁项集”雷根斯堡,德国9月9月3日07 ISBN: 0 - 7695-2932-1。
J.D.安德鲁斯“故障树转换为一个简单的组件连接方法嗯和SVM”维也纳,奥地利4月4月20日22 ISBN: 0 - 7695-2567-9。
兰德尔·e·科比“象征性的布尔操作有序二元决策图”ACM计算调查(CSUR)调查主页存档卷24问题3,9月1992页293 - 318。