在线刊号(2320-9801)印刷刊号(2320-9798)
Ekta”Garg1Madhu Bahl报道2
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
语音情感识别是根据存储的语音数据集识别语音文件的过程。它根据分类器分析数据集,并相应地预测结果。在此场景中,预测的输出是与数据库最匹配的输出。在这个场景中使用了几种分类器。本文介绍了语音识别过程中的不同环节,并对分类方法进行了讨论。
关键字 |
语音识别,分类器,识别过程 |
介绍 |
自动化系统的动态要求促使识别系统考虑精确的命令方式,而不是仅仅在命令模板上运行。这一概念与说话人的身份识别相关联,同时也识别说话人的情绪。声学处理场不仅能识别出“whoâÂ′”说话人是谁,还能说出“howâÂ′”说话人是谁,实现最大程度的自然交互。[1] |
这也可用于语音对话系统,例如,在呼叫中心应用程序中,如果呼叫者的情绪被更早地识别出来,支持人员可以以更调整的方式处理对话。人类的本能通过观察心理视觉表象和声音来识别情感。机器可能不会完全模仿这种自然趋势,但如果使用语音处理,它们仍然不会落后于复制人类的这种能力。早期对语言的研究为开发处理情感的声学特性打开了大门。另一方面,信号处理工具如MATLAB和模式识别研究人员的社区开发了各种算法(如HMM, SVM),这些算法完成了从语音中识别情绪所需的资源。[2] |
)数据库:数据库是数据的集合。在我们提出的工作中,我们使用了语音样本作为数据库。在数据库中,我们找到语音信号的属性,然后将它们存储到数据库中。问题来了,我们将如何在数据库中存储数百个文件。程序如下。首先我们会获取声音样本的属性。所有需要的属性都将被计算出来,然后存储到一个数组中。数组会随着文件的移动而移动。我们会提取这些特征最后取它们的平均值然后将它们存储到数据库中为我们提取的每一类声音。快乐,悲伤,愤怒和恐惧。 |
b)语音文件:语音文件是特征提取需要处理的文件。 |
c)属性:当我们对语音文件进行处理时,会提取语音文件的属性。对于特征提取,有几种算法可以使用。在我们的方法中,我们使用HMM算法进行训练。 |
1.1研究工作部分: |
我们的研究工作分为两个部分。各节的解释如下。 |
一)培训:训练部分确保正确地训练数据库,以便在测试时产生广泛的结果。本次培训的特点如下: |
a)最大频率:文件的最大频率是我们在频率图上的峰值处得到的值。当我们把一个声音样本放在时间和频率模式上时,最大峰值称为声音样本的最大频率。 |
b)最低频率:文件的最小频率是我们在频率图上的峰值处得到的值。当我们把声音样本放在时间和频率模式上时,最小峰值称为声音样本的最小频率[3] |
c)平均频率:平均频率可以用两种方法计算。第一种方法是将所有频率样本相加,然后将整个和除以频率的总数。第二种方法是一种非常道德的方法,我们可以将最小频率和最大频率相加,然后将它们除以2。 |
平均频率=(最小频率+最大频率)/2 |
d)光谱滚转:频谱滚转在发展方面可以说是最大频差与邻近频率之间的差。将频率(max)的位置存储到与相邻节点相似的数组中,然后计算其差值。 |
e)噪音等级:从道德上讲,噪声水平是添加到声音样本中的额外比特数。如果噪声是均匀的,则可以通过取每个频率样本与语音样本阈值的差值来计算噪声水平。 |
噪音水平分为两类。 |
1)均匀噪声 |
2)非均匀噪声 |
统一的噪声:均匀噪声是在整个语音样本中同时相同的噪声。 |
非均匀噪声:非均匀噪声在整个样本中并不是恒定的。 |
f)情节:它是整个声音样本的平均值。 |
g)频谱:频谱频率是声音样本中最高音高附近的频率。 |
1.2有利于特征提取的算法: |
1)嗯:HMM代表HARCOV的元模型。它是一种世界知名的训练数据集的算法。它提取语音样本的特征,并将其保存到数据库中以供将来使用。文件的最大频率是我们在频率图上的峰值处得到的值。当我们把一个声音样本放在时间和频率模式上时,最大峰值称为声音样本的最大频率。它被视为训练的对应部分,用于对数据进行抽样,以便进一步处理。在这种方法中,我们将数据集的每个样本作为必须处理的唯一项目。特征提取并保存到数据库中,可以按照下面的流程图进行分类 |
2.声学建模:声学模型被开发用于将语音信号的观察特征与假设单词/句子的预期语音联系起来。在生成基本语音单位如音、三音、音节之间的映射时,进行了严格的训练。在训练过程中,代表一个类的特征的一种模式,使用一个或多个与同一类的语音相对应的模式。 |
3.语言和词汇建模:词语歧义是一个需要小心处理的方面,单靠声学模型是无法处理的。对于连续语音,单词边界是主要问题。语言模型用于解决这两个问题。ASR系统一般采用随机语言模型。这些概率将从一个语料库中训练出来。语言从声学模型中接受单词的各种竞争假设,从而为每个单词序列生成一个概率。词汇模型提供单词在指定语言中的发音,并包含单词和电话之间的映射。通常使用在普通字典中可以找到的规范发音。为了处理可变性的问题,词典中包含了每个单词的多个发音变体,但要小心。为了提高ASR系统预测训练数据中没有的单词发音的性能,采用了G2P系统-字素转音素系统。 [5] |
4.模型适应:进行自适应的目的是尽量减少系统对说话人声音、麦克风、传输信道和声环境的性能依赖,从而增强系统的泛化能力。语言模型自适应的重点是如何选择适合特定领域的语言模型。自适应过程识别领域的性质,从而选择指定的模型。 |
5.识别:识别是一个将未知测试模式与每个声音类参考模式进行比较的过程,从而计算相似性度量。两种方法被用于匹配模式:第一种是基于声学单位和识别单位之间的距离的动态时间翘曲。第二种是基于训练单元与识别单元之间出现概率最大化的HMM算法。为了训练HMM并因此获得良好的性能,需要一个大型的、语音丰富且平衡的数据库。 |
C.性能参数 |
精度和速度是衡量自动语音识别系统性能的标准,如下所述: |
1.准确的参数 |
单词错误率(WER): WER是通过将测试集与计算机生成的文档进行比较,然后计算替换(S)、删除(D)和插入(I)的数量,并除以测试集[5]中的单词总数来计算的 |
2.速度参数 |
实时因子是评价语音自动识别速度的参数。公式:P RTF= ------------------ I其中P:处理一个输入所花费的时间输入的持续时间I例如,当处理一个持续2小时的记录需要6小时的计算时间时,RTF= 3。RTF≤1表示实时处理。 |
2测试方法 |
语音处理的测试模块包括基于训练数据集对语音文件进行测试。为了对语音文件进行测试操作,使用不同类型的分类器来分析语音样本的服务。其中一些分类器的解释如下。 |
A)支持向量机:支持向量机支持向量机。它将整个数据集作为二进制输入,并对其进行分类。SVM分类器成功生成了FAR和FRR比值,确定了匹配百分比。支持向量机是线性分类器(即类由超平面分隔),但它们可以通过所谓的核技巧用于非线性分类。它们不是直接应用SVM到输入空间Run,而是应用到高维特征空间F,这与输入空间非线性相关:_:Run !F.可以使用核技巧,因为支持向量机的算法只使用欧几里得点积(x _ y)形式的训练向量。然后只需要计算特征空间(_(x) __(y))中的点积,它等于所谓的核函数k(x;Y)如果k(x;y)满足默瑟的条件。满足这些条件的重要核函数是多项式核函数 |
B) GNB分类器:GNB是基于高斯naïve的分类器。当必须对有噪声的语音进行预测时,它是有用的。 |
C)神经网络分类器:神经网络分类器是目前最先进的分类器之一,它需要两个输入。第一个输入是训练集,第二个输入是目标集。目标的绘制是训练集更新的基础。[6] |
神经网络是由相对简单的处理元素或节点组成的高度互联的网络,这些处理元素或节点并行运行。它们被设计用来模拟神经生物学网络的功能。最近对神经网络的研究为语音识别问题提出了新的解决方法。与现有的方法相比,神经网络有两个潜在的优势。 |
首先,它们使用许多并行的处理器,可以提供持续语音识别所需的计算能力。其次,新的神经网络算法,可以自组织并建立一个内部语音模型,使性能最大化,将比现有算法表现得更好。这些新算法可以模仿儿童掌握新单词和短语的学习方式。 |
3结论 |
通过上述文本,可以得出语音识别系统是一个需要两个阶段数据的过程。第一阶段是培训阶段,第二阶段是测试阶段。如果没有有效地提供培训,测试阶段就不可能是最佳的。测试可以使用不同种类的分类器来完成,就像上面所写的那样。训练可以使用特征提取方法完成。 |
参考文献 |
|