关键字 |
蚁群优化,MFCC,特征选择,语音识别 |
介绍 |
语音处理和交流方面的研究在很大程度上是由那些希望建立机械模型来模拟人类语言交流能力的人所激发的。语音是人类最自然的交流形式,而语音处理一直是信号处理中最令人兴奋的领域之一。语音识别技术已经使计算机能够遵循人类的语音命令,理解人类的语言。语音识别领域的主要目标是开发语音输入到机器的技术和系统。目前大多数自动语音识别(ASR)系统都是基于某种类型的梅尔频率倒谱系数(MFCCs),这已被证明在各种条件下是有效和鲁棒的。为了提高提取过程的准确性和效率,通常在提取特征之前对语音信号进行预处理。语音信号预处理包括数字滤波和语音信号检测。 |
本文的目标是利用蚁群算法对Mel频率倒谱系数(MFCC)中的特征进行优化。这可以提高自动语音识别(ASR)的性能。随着数字信号处理硬件和软件的改进,自动语音识别技术已经取得了巨大的进步。尽管语音识别技术已经取得了很大的进展,但如何设计出独立于说话人的连续语音识别系统仍然是一个难题。其中一个基本问题是,在特征提取阶段是否保留了区分单词所需的所有信息。如果在这一阶段丢失了重要信息,那么ASR中接下来的分类阶段的性能就会固有地受损,永远无法达到人类的能力。因此,为了提高识别速度,必须使用有效的特征提取和特征选择技术。从而提高了自动语音识别系统的性能。结果表明,随着迭代次数的增加,特征的数量逐渐减少。第二部分介绍了自动语音识别技术的概况。 In section III, extraction of features using MFCC is presented. The feature selection algorithm called Ant Colony Optimization (ACO) is described in section IV. The results are discussed in section V. Conclusion and future work is presented in section VI. |
asr概述 |
语音识别(也称为自动语音识别(ASR)或计算机语音识别)是将语音信号转换为单词序列的过程,如图1所示,并在计算机中作为算法实现。 |
在第一步特征提取中,对采样语音信号进行参数化。目标是从具有与以下分类相关的最大信息的信号中提取大量参数(“特征”)。这意味着提取的特征对声学变化稳健,但对语言内容敏感。换句话说,需要区分和允许区分不同语言单位(例如,电话)的功能。另一方面,特征也应该对噪声和与识别过程无关的因素(例如,语音信号的基频)具有鲁棒性。 |
在建模阶段,将特征向量与参考模式进行匹配,称为声学模型。参考模式通常是针对整个单词训练的隐马尔可夫模型(hmm),更常见的是针对作为语言单位的手机。hmm可以应对时间变化,这一点很重要,因为参考语音信号和待识别语音信号之间的单个手机的持续时间可能不同。时间轴的线性归一化在这里是不够的,因为并不是所有的手机都以相同的方式随着时间而扩展或压缩。在特征提取和建模之间,采用了特征选择算法。进化算法、遗传算法和基于神经网络的算法可以用于从整个特征集中选择最佳子集。 |
MFCC特征提取 |
特征提取可以理解为降低输入数据的维数,这种降低不可避免地导致一些信息的丢失。通常,在语音识别中,语音信号被分割成帧,并从每一帧中提取特征。在特征提取过程中,语音信号被变换成一系列特征向量。然后将这些向量转移到分类阶段。 |
MFCC因其计算效率高、鲁棒性好而被广泛应用于自动语音识别。滤波包括预强调滤波和用几种数字滤波算法滤除周围噪声。最后利用Mel频率倒谱系数法提取了36个系数。表示MFCC的框图如图2所示。MFCC由七个计算步骤组成。每一步都有其功能和数学方法,简要讨论如下: |
答:预加重 |
这一步处理信号通过一个强调更高频率的滤波器。这一过程将增加信号在更高频率下的能量。 |
(1) |
假设a = 0.95,这使得任意一个样本的95%都被假定来自前一个样本。 |
b .框架 |
将从模数转换(ADC)获得的语音样本分割成长度在20到40毫秒范围内的小帧的过程。将语音信号分成N个采样帧。相邻帧被M (M
|
C.汉明窗 |
在特征提取处理链中考虑下一个块,使用汉明窗作为窗形,并将所有最近的频率线进行整合。 |
y(n) =输出信号 |
X (n) =输入信号 |
w(n) =汉明窗,则加窗信号的结果如下所示: |
(2) |
D.快速傅里叶变换 |
将N个样本的每一帧从时域转换到频域。傅里叶变换是对声门脉冲u[n]与声道脉冲响应h[n]的时域卷积进行变换。这句话支持下面的等式: |
(3) |
E. Mel-Scaled Filter Bank |
滤波器组分析包括一组带通滤波器,其带宽和间距大致等于那些关键波段,其中心频率的范围涵盖了语音感知的最重要频率。滤波器组是一组重叠的三角形带通滤波器,根据mel频率尺度,这些滤波器的中心频率在1khz以下是线性等间隔的,在1khz以上是对数等间隔的。语音信号由不同频率的声调组成。对于每个具有实际频率f(以Hz为单位)的音调,主观音高以“Mel”刻度测量。我们可以使用下面的公式来计算给定频率f (Hz)下的mels: |
(4) |
F.离散余弦变换 |
这是利用离散余弦变换(DCT)将对数梅尔谱转换为时域的过程。这种转换的结果被称为梅尔频率倒谱系数。这组系数称为声向量。因此,每一个输入的话语都被转换成一个声向量序列。IFFT需要复杂的算法,DCT不需要。DCT通过利用真实信号中的冗余,更有效地实现了与FFT相同的功能。DCT的计算效率更高。 |
蚁群特征选择 |
该算法的主要重点是生成缩小尺寸的显著特征子集。ACO特征选择利用了一种结合了包装器和过滤器方法的混合搜索技术。为此,蚁群特征选择在上述两种方法的基础上对标准信息素更新规则和启发式信息测量规则进行了改进。ACO特征选择算法相对于以往的PSO、GA等算法的新颖性和独特性在于以下两个方面。 |
首先,蚁群特征选择不仅强调选择大量显著特征,而且强调获得较少的显著特征。ACO特征选择使用子集大小确定方案选择减少数量的显著特征。这种方案在一个有界的区域上工作,并提供数量较小的构造子集的大小。因此,按照这种方案,蚂蚁试图遍历节点(或特征)空间来构造路径(或子集)。但问题是,特征选择需要一个合适的停止准则来停止子集的构建。否则,许多不相关的特征可能包含在构建的子集中,并且解决方案可能无效。为了解决这个问题,一些算法通过对所有蚂蚁进行固定次数的迭代来定义一个构造子集的大小,在接下来的迭代中以固定的速率递增。如果固定数字过大或过小,这种技术就会效率低下。因此,当蚂蚁遍历特征空间时,在缩小的区域内决定子集的大小可能是构造子集的一个很好的步骤。 |
ACOFS的主要结构如图3所示。但是,在第一阶段,当k只蚂蚁都试图构造子集时,它首先根据子集大小确定方案确定子集大小r。这个方案指导蚂蚁以简化的形式构造子集。然后,按照常规的概率转移规则选择特征,如下所示: |
(5) |
在那里, |
Jk =可行特征集 |
ηi =信息素值 |
τi =与特征I相关的启发式可取性 |
α和β =两个参数,决定信息素值和启发式信息的相对重要性。 |
在子集构建(SC)期间,蚂蚁在构建单个子集时所使用的方法可以在图4中看到。 |
每个节点上信息素的数量为: |
(6) |
在那里, |
Sk(t) =蚂蚁k在迭代t时找到的特征子集 |
|Sk(t)| = feature子集长度。 |
蚂蚁对新信息素的添加和信息素的蒸发通过以下规则实现,并应用于所有节点: |
(7) |
在那里, |
M =每次迭代的蚂蚁数量 |
P(0,1) =信息素迹衰减系数。 |
结果和讨论 |
A.特征提取算法的实现 |
图5表示建议工作中使用的筛选器组。共设计了24个滤波器,其中截止频率在1 KHz以下的滤波器为线性滤波器,超过1 KHz的滤波器为对数滤波器。图6为特征提取阶段的输入语音信号。图7显示了应用输入语音信号的Mel频率倒谱系数(MFCC)输出。首先实现Mel滤波器组,然后得到MFCC输出。 |
B.特征选择算法的实现 |
在ACO-特征选择算法的实现中,最初对最大迭代次数为100次,对6、12、13、26和39个系数的特征子集进行最佳选择。然后计算最佳特征子集的长度。对于200和300次迭代也执行上述过程。特征子集的长度也分别计算了所有300次迭代的MFCC系数。所拍摄的特征总数约为312个。 |
计算了39个MFCC系数在200次迭代和300次迭代中得到的特征子集长度之比。表1给出了Mel频率倒谱系数的最大迭代次数为100、200和300时的最佳特征子集的长度。 |
从表中,我们可以观察到,与100次迭代相比,300次迭代中特征的数量减少到约16.6%。与其他优化算法相比,蚁群算法性能较好。 |
结论及未来工作 |
本课题针对自动语音识别系统中使用蚁群优化技术对语音特征集进行优化的问题。对算法进行了一些改进,并将其应用于包含Mel频率倒谱系数(MFCC)及其delta系数和两能量的更大特征向量。为了提高自动语音识别系统的性能,蚁群算法从所有特征中选择最相关的特征。从表格结果中可以看出,随着迭代次数的增加,特征数量减少,MFCC系数也增加。与100次迭代得到的特征数量相比,300次迭代得到的特征数量减少到16.6%。蚁群优化能够在不损失性能的情况下选择信息量更大的特征。 |
未来的工作是将从所提出的蚁群优化(ACO)算法中获得的最佳特征子集应用到建模阶段。 |
确认 |
作者要感谢S.Valarmathy博士和Kalamani女士对本项目实施的支持。 |
|
表格一览 |
|
表1 |
|
|
数字一览 |
|
|
参考文献 |
- A. Biem和S. Katagiri, â '  '基于倒谱的滤波器组设计,使用不同级别的鉴别特征提取训练,â '  '在Proc. IEEE Int。光子学报,1997,pp. 1503Ãⅱ '  ' ' 1506。
- B. Milner和X. Shao, â ' “基于mel频率倒谱系数的无约束语音重建的基频和语音预测,â ' ”,国际会议论文,IEEE Trans。音频,演讲,朗。的过程。,vol. 15, no. 1, pp. 24âÂÂ33, Jan. 2007.
- Christian Blum, â '  ' '蚁群优化:介绍和最近trendsâ '  ',在Elsevier杂志,物理生命评论2 (2005)353â '  ' 373。雷竞技苹果下载
- Chulhee Lee, Hyun Donghoon, Euisun Choi, Jinwook Go and Chungyong Lee, â '  '优化语音特征提取Recognitionâ '  ', IEEE Trans。音频,演讲,朗。的过程。,Vol. 11, No. 1, pp.80, January 2003.
- D. R. Sanand和S. Umesh, â '  '在传统的MFCCâ '  '上使用分析确定的线性变换,IEEE语音和音频处理学报,第20卷,NO. 1。5,第1573页,2012年7月。
- Daniele Giacobello, MadsGrA¦sbA¸ll Christensen,马诺n Murthi SA一¸renHoldt詹森和马克·穆南一个¢稀疏线性预测及其应用语音ProcessingA¢,IEEE语音和音频处理,20卷,5号pp.1644, 2012年7月。
- DimitriosDimitriadis, Petros Maragos和Alexandros Potamianos, â '  '关于滤波器组设计和能量计算对鲁棒语音的影响Recognitionâ '  ',IEEE音频、语音和语言处理学报,Vol. 19, No. 6, 2011年8月。
- Dipmoy Gupta, RadhaMounima C. NavyaManjunath, Manoj PB, â ' “基于矢量量化的孤立词语音识别(VQ â '  '),《计算机科学与软件工程》,第2卷,第5期,2012年5月ISSN: 2277 128X, pp. 164-168。
- D. Giacobello, M. G. Christensen, M. N. Murthi, S. H. Jensen,和M. Moonen, â ' “通过迭代重加权1范数最小化提高语音线性预测中的稀疏性,â ' ”相依Acoust。,Speech, Signal Process., 2010, pp. 4650â 4653.
- D. Chazan, R. Hoory, G. Cohen, M. Zibulski, â ' “基于mel频率倒谱系数和基音频率的语音重建,â ' ”,《ICASSP研究进展》,2000,vol. 3, pp. 1299â '  ' 1302。
|