关键字 |
蚁群优化、MFCC特征选择,语音识别 |
介绍 |
语音处理和通信的研究大部分是出于人们那些渴望建立力学模型来模拟人类言语交际能力。语音是人类交流最自然的形式和语言处理一直是最令人兴奋的领域的信号处理。语音识别技术已经使计算机遵循人类语音指令和理解人类的语言。语音识别领域的主要目标是开发技术和系统对语音输入机器。今天大部分的自动语音识别(ASR)系统是基于某种类型的Mel-Frequency Cepstral系数(MFCCs),已被证明是有效的在不同条件下和健壮。提高精度和效率的提取过程中,语音信号通常都是前预处理特征提取。语音信号预处理包括数字滤波和语音信号检测。 |
本文的目标是优化特征提取Mel频率Cepstral系数(MFCC)使用蚁群优化(ACO)算法。这可以提高性能的自动语音识别(ASR)。自动语音识别已经取得巨大成就的提高数字信号处理硬件和软件。语音识别技术虽然取得了重大进展,这仍然是一个困难的问题,设计一个语音识别系统扬声器独立、连续语音。其中一个基本问题是所有必要的信息来区分单词是否保存在特征提取阶段。如果在这个阶段,重要信息丢失后的性能分类阶段ASR天生残疾,不能达到人类的能力。因此,有效的特征提取和特征选择的技术被使用以提高识别的速度。因此,自动语音识别系统的性能可以得到改善。结果表明,随着迭代次数的增加,功能的数量得到减少。第二部分解释了自动语音识别的概述(ASR)。 In section III, extraction of features using MFCC is presented. The feature selection algorithm called Ant Colony Optimization (ACO) is described in section IV. The results are discussed in section V. Conclusion and future work is presented in section VI. |
ASR的概述 |
语音识别(也称为自动语音识别(ASR)或计算机语音识别)的过程是将语音信号转换成一系列单词,如图1所示,在计算机实现算法。 |
在第一步中,采样语音信号的特征提取,是参数化的。目标是提取的参数(功能)的信号有一个最大的信息相关的以下分类。这意味着特征提取是健壮的声学变化但敏感的语言内容。换句话说,功能区分,并允许区分不同的语言单位(如手机)是必需的。另一方面也应该健壮的对噪声特性和无关的因素识别过程(例如,语音信号的基频)。 |
在建模阶段特征向量与参考模式,称为声学模型。参考模式通常是隐马尔可夫模型(摘要)训练了整个单词或更经常出现的情况是,手机作为语言单位。摘要应对时间变化,这非常重要,因为个人手机的持续时间可能不同参考语音信号和语音信号识别。时间轴的线性归一化是不够的,因为并不是所有的手机都是扩展或压缩以同样的方式。在特征提取和建模之间的阶段,使用特征选择算法。算法进化算法、遗传算法和基于神经网络的算法可用于选择最佳子集之间的整个特性集。 |
由MFCC特征提取 |
特征提取可以被理解为一个步骤减少输入数据的维数,减少不可避免地带来一些信息损失。通常,在语音识别,语音信号分为帧和从每一帧中提取特征。在特征提取过程中,语音信号是变成了序列的特征向量。那么这些向量是转移到分类阶段。 |
MFCC主要是用于自动语音识别由于其高效的计算和鲁棒性。过滤包括预加重过滤器和过滤掉任何周围的噪音使用几个数字滤波的算法。最后36系数提取Mel频率Cepstral系数法。代表MFCC的框图如图2所示。MFCC由7个计算步骤。每一步都有其功能和数学方法如下:简要讨论 |
答:预加重 |
这一步处理通过强调更高频率的信号通过一个滤波器。这个过程将增加信号的能量在更高的频率。 |
(1) |
假设一个= 0.95,这使得任何一个样本的95%是认为源自先前的示例。 |
b .框架 |
细分的过程获得的语音样本从模拟到数字的转换(ADC)到一个小框架与20至40毫秒的长度范围内。N的语音信号分为帧样本。相邻帧被M分离(M < N)。典型值使用M = 100和N = 256。 |
c·汉明窗口 |
汉明窗作为窗口形状通过考虑特征提取处理链中的下一个块和整合了所有最接近的频率线。 |
y (n) =输出信号 |
x (n) =输入信号 |
w (n) =汉明窗,然后窗口信号的结果如下所示: |
(2) |
d .快速傅里叶变换 |
将每一帧的N样品从时域到频域。傅里叶变换的卷积转换声门的脉冲u [n]和声道在时域脉冲响应h [n]。这个声明支持以下方程: |
(3) |
大肠Mel-Scaled滤波器组 |
过滤器银行分析由一组带通滤波器的带宽和间距大致等于这些重要的乐队,其中心频率范围覆盖最重要的频率言语知觉的滤波器组是一组重叠的三角形带通滤波器,根据mel-frequency规模,这些滤波器的中心频率是线性条平行的小于1 kHz和对数条平行。语音信号是由不同频率的音调。每个音调的实际频率,f,以赫兹,主观音高是衡量“梅尔”的规模。我们可以用下面的公式来计算给定的梅尔·赫兹频率f: |
(4) |
f .离散余弦变换 |
这个过程将日志梅尔谱转化为时域使用离散余弦变换(DCT)。转换的结果叫做梅尔频率倒谱系数。的系数称为声向量。因此,每个输入话语声向量的转化为一个序列。传输线需要复杂的算术,DCT没有。FFT的DCT实现相同的功能更有效地利用冗余的一个真正的信号。DCT更有效的计算。 |
特征选择的算法 |
该算法的主要焦点是生成减少大小的特征子集。ACO特征选择,利用混合搜索技术相结合的包装器和过滤器的方法。在这方面,算法特征选择修改标准更新信息素和启发式信息计量规则基于上述两种方法。新奇的原因和不同的特征选择算法与以往算法PSO、GA,在于以下两个方面。 |
首先,算法特征选择强调不仅许多特征的选择,也是实现减少它们的数量。ACO特征选择,选择特征的数量减少了使用一个子集的大小确定方案。这样一个计划工作在一个有界区域,并提供尺寸较小的子集构造。因此,这个方案后,一只蚂蚁试图遍历节点(或特性)空间构建的路径(子集)。然而,问题是,特征选择需要一个适当的停止准则停止建设子集。否则,很多无关紧要的特性可能会包含在子集构造,和解决方案可能不是有效的。为了解决这个问题,一些算法,定义构造子集的大小由一个固定数量的迭代所有蚂蚁,这是递增迭代后在一个固定利率。这种技术可能是低效的,如果固定数量变得太大或太小。因此,决定子集的大小减少区域内可能是一个好的一步构建子集,而蚂蚁遍历功能空间。 |
ACOFS的主要结构如图3所示。然而,在第一阶段,而每个k蚂蚁试图构建子集,它决定子集大小r首先根据子集大小确定方案。这个方案引导蚂蚁构建以减少形式子集。然后,它遵循了传统概率转换规则选择功能如下, |
(5) |
在那里, |
Jk =一系列可行的特点 |
ηi =信息素值 |
我τi =启发式愿望与特性 |
α和β=两个参数决定的相对重要性的信息素和启发式信息价值。 |
蚂蚁在构建个人子集所使用的方法在建设子集(SC)可以看到如图4所示。 |
在每个节点上信息素的数量,给出: |
(6) |
在那里, |
Sk (t)发现通过ant k =功能子集迭代t |
| Sk (t) | =长度特征子集。 |
添加新的信息素和蚂蚁的信息素蒸发实现以下规则适用于所有节点: |
(7) |
在那里, |
m =数量的蚂蚁在每个迭代 |
p(0,1) =信息素轨迹衰减系数。 |
结果和讨论 |
答:特征提取算法的实现 |
图5表示的过滤器用于拟议的工作。完全24过滤器设计与切断频率高达1 KHz过滤器是对数线性和1 KHz以上。图6显示了输入语音信号特征提取阶段。图7显示了Mel频率Cepstral系数(MFCC)输出应用输入语音信号。最初梅尔滤波器组实现然后MFCC的输出。 |
特征选择算法的实现 |
ACO -特征选择算法的实现,100年最初的最大迭代和6、12、13、26和39系数的最佳特征子集。然后计算长度的最佳特征子集。200年和300年执行上述过程迭代。特征子集的长度也对于那些MFCC系数分别计算300次迭代。特性采取总量约为312。 |
结果值列表和长度的比率在200年获得的特征子集迭代和300 iterationsfor 39 MFCC系数计算。表1显示了最佳特征子集的长度最大迭代数100年,200年和300年相应数量的梅尔频率Cepstral系数。 |
从表中,我们观察到的数量特性得到比100年减少到300年的16.6%的迭代的迭代。与其他优化算法相比ACO表现良好。 |
结论和未来的工作 |
在这个项目中,优化问题的蚁群优化(ACO)设定的声学特征自动语音识别技术(ACO)系统是解决。算法的一些修改完成并应用到更大的特征向量包含Mel频率Cepstral系数(MFCC)及其三角洲系数,和两个能量。蚁群优化算法选择最相关的功能在所有功能以增加自动语音识别系统的性能。从表结果可以看出特征的数量得到减少迭代次数增加,同样数量的MFCC系数增加。100次迭代的特性获得的数量相比,功能得到迭代减少到300年的16.6%。蚁群优化能够选择更丰富的功能在不损失性能。 |
未来的工作是应用的最佳特征子集获得提出蚁群优化(ACO)算法建模阶段。 |
确认 |
作者要感谢博士。Valarmathy和Kalamani女士的支持这个项目的实施。 |
|
表乍一看 |
|
表1 |
|
|
数据乍一看 |
|
|
引用 |
- A . Biem和美国片瞳,一个¢Cepstrum-based滤波器组设计使用区别的特征提取各级培训,一个¢Proc, IEEE Int。相依音响、演讲,和信号处理,1997年,页1503¢1506。
- b•米尔纳和x邵¢预测的基本频率和表达梅尔频率cepstral系数不受约束的言论重建一个¢proc.国际会议的IEEE反式。音频,演讲,朗。过程。,15卷,不。1、24页。一个¢33岁,2007年1月。
- 基督教布卢姆,¢蚁群优化:介绍和最近trendsA¢,生活在爱思唯尔的日记、物理评论2(2005)353¢373。雷竞技苹果下载
- 崔Chulhee Lee Donghoon Hyun Euisun Jinwook, Chungyong李,一个¢优化特征提取的演讲RecognitionA¢,IEEE反式。音频,演讲,朗。过程。,Vol. 11, No. 1, pp.80, January 2003.
- Sanand d r和s Umesh¢AVTLN使用分析确定线性变换在传统MFCCA¢,IEEE语音和音频处理,20卷,没有。2012年7月5 pp.1573。
- Daniele Giacobello, MadsGrA¦sbA¸ll Christensen,马诺n Murthi SA一¸renHoldt詹森和马克·穆南一个¢稀疏线性预测及其应用语音ProcessingA¢,IEEE语音和音频处理,20卷,5号pp.1644, 2012年7月。
- DimitriosDimitriadis, Petros Maragos Alexandros Potamianos,一个¢滤波器组设计的影响和能量计算强劲演讲RecognitionA¢,IEEE音频、语音和语言处理,19卷,2011年8月6号。
- Dipmoy古普塔RadhaMounima c . NavyaManjunath Manoj PB,¢孤立词语音识别使用矢量量化(VQ A¢,在国际先进研究期刊》的研究在计算机科学和软件工程,卷2,问题5,2012年5月ISSN: 128 x 2277,页164 - 168。
- d . Giacobello m·g·克里斯滕森m . n . Murthi s h·詹森和m·穆南一个¢提高稀疏线性预测的演讲中反复再加权1-norm最小化,一个¢Proc, IEEE Int。相依Acoust。、演讲、信号的过程。,2010, pp. 4650â 4653.
- d .独唱者r . Hoory g·科恩,m . Zibulski¢演讲重建从梅尔频率cepstral系数和频率,一个¢Proc。ICASSP, 2000年,3卷,页1299¢1302。
|