在线刊号(2278-8875)印刷版(2320-3765)
琳娜·R·梅塔1, S.P.Mahajan2, Amol S Dabhade3.
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际电气、电子和仪器工程高级研究杂志
本文介绍了马拉地语数据库和基于mel频率倒谱系数(MFCC)和矢量量化(VQ)技术。它还比较了MFCVQ环境下的C和LPC特性。马拉地语语音数据库是在噪声环境下进行语音记录的一种语言学习工具。该数据库由以元音和辅音开头的简单马拉地语单词组成。每个单词由一名男性和一名女性重复10次。本文给出了比较图MFCC和LPC特性。
关键字 |
||||||||||||
马拉地语数据库,特征提取,LPC, MFCC, VQ,识别 | ||||||||||||
介绍 |
||||||||||||
言语是人与人之间最突出、最自然的交流方式。世界上有各种各样的口语。马拉地语是一种印度雅利安语,在印度西部和中部使用。全世界有9000万人能说流利的英语。然而;使用不同变体的印度语言开发系统的空间很大。在这个方向上,一些孤立的孟加拉语、印地语和泰卢固语的研究工作正在进行。印度地方语言的研究还没有达到关键水平,不能像发达国家的其他语言那样,将其用作真正的交流工具。因此,本文将重点放在马拉地语[1]上。马拉地语语音识别系统能否像英语语音识别系统一样进行研究,这一点很重要。当前的计算机界面,如键盘,也要求用户具备一定的读写能力。 It also expects the user to have certain level of proficiency in English. In our country where the literacy level is as low as 50% in some states, if information technology has to reach the grass root level; these constraints have to be eliminated. In this paper we are presenting work consists of the creation of Marathi speech database and its speech recognition system for isolated words. | ||||||||||||
全文共分为六个部分。第一节,绪论。第二节详细介绍马拉地语语音数据库的创建。第3节重点介绍了使用MFCC和LPC进行特征提取,第4节介绍了向量量化,第5节介绍了结果和结论,第6节介绍了参考文献。 | ||||||||||||
马拉地语语音数据库 |
||||||||||||
以适当的方式收集的话语被称为数据库。我们选择了由著名出版物开发的基本“Anklipiâ '  '。这是初学者的基础书。为了语音识别的准确性,我们需要一个话语的集合,这是训练和测试[1]所需要的。马拉地语元音、单词和句子语料库的生成以及语音数据的收集如下所述。数据库的词汇表大小由 | ||||||||||||
•马拉地语元音:120个样本 | ||||||||||||
•马拉地辅音:360个样本 | ||||||||||||
1.语音数据采集: | ||||||||||||
说话人选择 | ||||||||||||
数据库记录了一位25-35岁的男性和一位女性说话者。的年龄。两个人的母语都是马拉地语。 | ||||||||||||
每个人都被要求说出48个单词,每个单词都有5个发音。总共记录了480个单词的发音。 | ||||||||||||
2.录音过程[5]: | ||||||||||||
采用PRAAT语音软件,利用笔记本电脑内置麦克风对分离出来的单词进行录音。这些数据将在有背景噪音的封闭房间中记录。在这样的噪声环境下对语音数据进行记录,将为今后开发鲁棒的自动语音识别系统提供参考。 | ||||||||||||
特征提取 |
||||||||||||
语音分类的一般方法包括从语音数据中提取歧视性特征,并将其提供给模式分类器。不同的方法和不同的语音特征提出了不同的成功率。特征可以直接从时域信号提取,也可以从变换域提取,这取决于信号分析方法的选择。一些语音特征已经成功地用于语音分类,包括梅尔频率倒谱系数(MFCC),线性预测编码(LPC)。很少有技术从特征中生成模式,并根据相关程度将其用于分类。很少有其他技术将特征的数值耦合到统计分类方法中。 | ||||||||||||
a .线性预测系数 |
||||||||||||
LPC(线性预测编码)通过估计共振峰来分析语音信号,从语音信号中去除它们的影响,并估计剩余嗡嗡声的强度和频率。去除共振峰的过程称为逆滤波,剩余的信号称为残差。在LPC系统中,信号的每个样本都表示为前几个样本的线性组合。这个方程被称为线性预测器,因此被称为线性预测编码[3]。差分方程的系数(预测系数)表征了共振峰。在MATLAB中对PRAAT记录的16 KHz采样语音信号进行特征提取处理。LPC处理器的基本步骤包括以下[4]: | ||||||||||||
1.预强调:将数字化语音信号s(n)放入低阶数字系统中,以使信号在频谱上平坦化,并使其在信号处理后期不容易受到有限精度影响。预强调器网络的输出与网络的输入s(n)相关,通过差分方程: | ||||||||||||
2.帧阻塞:将预强调步骤的输出,阻塞成N个样本的帧,相邻帧之间用M个样本分隔。设x (n) l为第l帧语音,整个语音信号内有l帧,则 | ||||||||||||
3.窗口:在帧阻塞之后,下一步是对每个单独的帧进行窗口处理,以尽量减少每帧开始和结束时的信号不连续。如果我们将窗口定义为w(n), 0≤n≤n - 1,那么加窗的结果就是信号: | ||||||||||||
典型的窗口是汉明窗口,其形式为 | ||||||||||||
自相关分析:下一步是自动关联加窗信号的每一帧,以便给出 | ||||||||||||
其中最高的自相关值,p,是LPC分析的顺序 | ||||||||||||
4.LPC分析:接下来的处理步骤是LPC分析,将p + 1自相关的每一帧通过DurbinÃ①Â′Â′s方法转换为LPC参数集。这可以正式地给出如下算法: | ||||||||||||
对i = 1,2,…,p进行递归求解,得到LPC系数am为a= αm (p) | ||||||||||||
B.mel频率倒谱系数 |
||||||||||||
Mel频率倒谱系数(MFCC)是语音识别中最常用的特征提取方法之一。该技术被称为基于FFT的技术,这意味着从加窗语音帧的频谱中提取特征向量。Mel频率滤波器组是一系列三角形带通滤波器。滤波器组是基于一种称为梅尔尺度的非线性频率尺度。1000赫兹的音调被定义为具有1000梅尔的音调。在1000hz以下,梅尔尺度近似于线性频率尺度。在1000hz参考点以上,Mel尺度和线性频率尺度之间的关系是非线性的,近似于对数[4]。下面的方程描述了梅尔尺度和线性频率尺度之间的数学关系 | ||||||||||||
Mel频率滤波器组由三角形带通滤波器组成,其中一个滤波器的下界位于前一个滤波器的中心频率,上界位于下一个滤波器的中心频率。在Mel尺度上计算一个固定的频率分辨率,对应于重复频率的对数缩放,使用ΔfMel = (fH Mel−fL Mel)/ (M + 1)其中fH Mel是Mel尺度上滤波器组的最高频率,从使用上面给出的公式计算,fL Mel是Mel尺度上的最低频率,具有对应的,M是滤波器组的数量。本研究中考虑的参数值为:fmax=16KHz, fmin =0 Hz。Mel尺度上的中心频率为: | ||||||||||||
将上述方程代入fmel方程,得到Mel滤波器组。最后,通过计算离散余弦变换得到离散余弦变换 | ||||||||||||
时间导数近似为有限窗口上的线性回归系数,定义为 | ||||||||||||
其中是t时刻的第l个倒谱系数,G是一个常数,用于使导数项的方差等于原始倒谱系数的方差。 | ||||||||||||
特征匹配方法(矢量量化) |
||||||||||||
图1给出了基于欧氏距离的说话人矢量量化识别方法。语音识别问题属于科学和工程中一个更广泛的主题,称为模式识别[3]。模式识别的目标是将感兴趣的对象分类为许多类别或类之一。我们感兴趣的对象通常被称为模式,在我们的例子中是使用前一节中描述的技术从输入语音中提取的声学向量序列。这里的课程是指个别演讲者。由于我们案例中的分类程序应用于提取的特征,它也可以被称为特征匹配。此外,如果存在一些模式集,其中的各个类已经知道,那么在监督模式识别中就有问题。这正是我们的情况,因为在训练过程中,我们用单词的ID标记每个输入语音。然后使用剩下的模式来测试分类算法;这些模式统称为测试集[4]。 If the correct classes of the individual patterns in the test set are also known, then one can evaluate the performance of the algorithm. The state-of-the-art in feature matching techniques used in speech recognition includes Dynamic Time Warping (DTW), Hidden Markov Modeling (HMM), and Vector Quantization (VQ). In this paper, the VQ approach is used, due to ease of implementation and high accuracy. VQ is a process of mapping vectors from a large vector space to a finite number of regions in that space. Each region is called a cluster and can be represented by its center called a codeword. The collection of all code words is called a codebook. Figure 1 shows a conceptual diagram to illustrate this recognition process. In the figure, only two speakers and two dimensions of the acoustic space are shown. The circles refer to the acoustic vectors from the speaker 1 while the triangles are from the speaker 2. | ||||||||||||
A.LBG算法 |
||||||||||||
LBG算法流程图如图2所示。下面将逐级解释。在注册阶段结束后,从演讲者的输入语音中提取的声学向量提供了一组训练向量。如上所述,下一个重要步骤是使用这些训练向量为这个说话者构建一个特定于单词的VQ码本。有一个众所周知的算法,即LBG算法[Linde, Buzo和Gray, 1980],用于将一组L训练向量聚类为一组M码本向量。算法由以下递归过程[6]正式实现: | ||||||||||||
1.设计一个1矢量码本;这是整个训练向量集的质心(因此,这里不需要迭代)。 | ||||||||||||
2.通过根据n从1到码本当前大小的规则拆分每个当前码本yn,将码本的大小翻倍,ε是一个拆分参数(我们选择ε=0.01)。 | ||||||||||||
3.最近邻搜索:对于每个训练向量,找到当前码本中最接近的码字(在相似度测量方面),并将该向量赋给相应的单元格(与最接近的码字相关联)。 | ||||||||||||
4.质心更新:使用分配给每个单元的训练向量的质心更新每个单元中的码字。 | ||||||||||||
5.迭代1:重复步骤3和4,直到平均距离低于预设的阈值 | ||||||||||||
6.迭代2:重复步骤2、3和4,直到设计出大小为M的码本。直观地,LBG算法分阶段设计m向量码本。它首先设计一个1矢量码本,然后对码字使用分割技术来初始化对2矢量码本的搜索,并继续分割过程,直到获得所需的m矢量码本。图2显示了LBG算法的详细步骤。“聚类向量”是最近邻搜索过程,它将每个训练向量分配给与最近码字相关的聚类。“查找质心”是质心更新过程。“计算D(扭曲)”将最近邻搜索中所有训练向量的距离相加,以确定过程是否收敛。 | ||||||||||||
结果和讨论 |
||||||||||||
一名男性和一名女性用马拉地语录下了“Anklipiâ '  '。马拉地语词汇提取的部分MFCC和LPC特征如下图所示。矢量量化器的训练集是通过记录一组马拉地语单词的发音来获得的。每个单词的矢量量化器都训练了2个说话者5次该单词的发音。两种特征在少字情况下的比较结果如下表1和表2所示。 | ||||||||||||
从表1和表2可以看出,MFCC的识别精度更高。因此,MFCC可以被认为是马拉地语教师应用于语音识别的更好特性。 | ||||||||||||
结论 |
||||||||||||
本文讨论了一种有效的马拉地语孤立词特征提取方法。提出了一种基于梅尔频率倒谱系数(MFCC)和矢量量化的马拉地语数据库和孤立词识别系统。并对LPC特征和MFCC特征的识别系统进行了比较。 | ||||||||||||
近年来,有一个稳定的运动,语音技术的发展,以取代或增强文本输入被称为移动搜索应用程序。最近雅虎!微软也推出了基于语音的移动搜索应用。未来的工作可以包括通过组合多个分类器来提高单个单词的识别精度。 | ||||||||||||
鸣谢 |
||||||||||||
我很高兴有这个机会感谢我尊敬的导游S. P. Mahajan博士,他传授了与语音处理相关的宝贵知识。 | ||||||||||||
数字一览 |
||||||||||||
|
||||||||||||
参考文献 |
||||||||||||
|