所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于MFCC和欧氏距离的语音识别硬件实现

UmaraniJ。Suryawanshi1, S. R. Ganorkar教授2
  1. 印度浦那,辛哈加德工程学院,工程与技术工程系
  2. 印度浦那辛哈加德工程学院勘探与开发工程系教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际电气、电子和仪器工程高级研究杂志

摘要

本文提出了一种基于数字信号处理器(DSP)的语音识别系统,该系统在识别精度和计算成本方面都有所提高。对Mel滤波器组(Mel Frequency倒谱系数)等多种特征提取方法的综合研究(MFC本文介绍了一种利用Mel尺度频率倒谱系数和欧几里得距离的数字信号处理器TMS320C6713进行孤立语音识别的方法。从口语语音信号中提取了几个特征。在声控室中采集了5位说话人的实验数据库,每个说话人说5-10个单词。MFCC是从口语的语音信号中提取的。为了比较语言间的差异,使用了欧几里得距离

关键字

语音识别,特征提取,模式识别,欧氏距离。

介绍

语音识别是根据语音信号中的信息自动识别人的言语的过程。每个口语单词都是使用一组元音、半元音和辅音语音单位的语音组合来创建的。识别方法中常用的基于频谱的参数是Mel频率倒谱系数,称为MFCC, MFCCâÂ′Â′s是基于人类听觉系统感知的系数,表示音频。FFT/DCT与MFCC操作的基本区别在于,在MFCC中,频带是对数定位的(在mel尺度上),它比FFT或DCT的线性间隔频带更接近人类听觉systemâÂ′Â′的响应。

文献调查

该系统由麦克风组成,通过麦克风输入语音信号。语音处理器的数据采集系统采集麦克风的输出,然后它检测说出的确切的单词如果这样一个系统安装在汽车上,那么通过几个启动,停止,前进,后退检测;我们不用手也能开车。[1].动态时间翘曲(Dynamic Time warp, DTW)算法是语音识别领域最流行的数学模型之一。
该算法以其简单有效的算法被广泛应用于资源贫乏的嵌入式系统等特殊领域。基于dtw的便携式增值税计算器的应用,内置与说话人相关的连接词和孤立词语音识别功能。自动语音识别是一个有趣的任务,但它需要很多努力。随着技术的发展,语音识别系统取得了良好的效果,但也存在一些主要的局限性。特别是以隐马尔可夫模型(HMM)为主要元素的识别系统适用于许多应用,但又不存在语音识别系统不适合实时应用的主要限制[2]。
一种孤立的单词,说话人相关的语音识别系统,能够以足够高的精度识别口语单词。该系统已在MATLAB和TMS320C6713 DSK上进行了测试和验证,总体精度超过90%。孤立词语音识别系统要求用户在每次说话后暂停。该系统分为两个阶段:培训和识别。在训练阶段,为用户的每一次说话生成一个训练向量。训练向量提取用于区分不同类别单词的特殊特征。每个训练向量都可以作为单个单词或单词类的模板。在识别阶段,用户说出系统训练过的任何单词。为该单词生成测试模式,并使用模式比较技术将相应的文本字符串显示为输出。[3]
自动语音识别(ASR)是现代科学发展最迅速的领域之一,具有广泛的应用前景。语音识别的统计方法,提取语音的共振子并分析其行为。这是一种新颖的语音识别方法。语音识别的整体分析是基于语音的五个共振子进行的。该方法对乌尔都语语音进行了测试,得到的结果具有较高的精度。在语音的频谱模式中可以看到峰的作用。这是因为声道共振对频谱的影响很大。当声音共振效应在语音频谱中表现明显时,可以将频谱峰称为语音峰。峰是声道产生频谱的声学特性。语音的峰是按照频率[4]来编号的。
在语音识别中,基于LPC的线性预测系数倒谱(LPC)或基于Mel频率滤波器组的Mel频率倒谱系数(MFCC)被广泛用于决定语音识别性能的特征提取。将复杂参数转换为LPCCâÂ′Â′s和MFCC作为HTK(HMM工具包)的特征向量,实现HMM语音识别。通过对转换后的lpcc和mfccc进行连续的语音识别实验,发现复杂语音分析方法的性能不如真实的[5]。
自动语音处理系统越来越多地应用于实际环境中。然而,他们面临着高环境噪音水平和他们的性能急剧下降。因此,迫切需要改进这些系统在噪声条件下的性能。调整语音模型以包括噪声的影响。采用该方法的方法包括偏差补偿算法和并行模型组合[6]。语音识别技术将测试数据转换为模板。识别过程包括将输入的语音与存储的模板进行匹配。与输入模式距离最小的模板就是识别的单词。最小距离测量是基于动态规划的。这被称为动态时间扭曲(DTW)单词识别器。 In order to understand DTW the two concepts need to be dealt with, features and distance [7].

语音识别

1.识别算法
语音分析是通过麦克风从用户那里获取输入后完成的。该系统的设计涉及到输入音频信号的处理。对输入信号进行不同层次、不同的操作,如预强调、分帧、加窗、梅尔倒谱分析和语音匹配(识别)。
2.特征提取
提取声音信号的最佳参数表示是提高识别性能的重要任务。采用MFCC算法提取特征。MFCC选择以下原因-
1.它为干净的演讲提供了干净的准确性。
2.MFCC可以被认为是扬声器和语音识别的“标准”特征。
3.在各种语音应用中,MFCC是最重要的特性。
图像
如图1所示,MFCC由计算步骤组成。每一步都有其功能和数学方法,简要讨论如下-
步骤1:预加重
这一步处理信号通过强调更高频率的滤波器。这一过程将增加信号在更高频率下的能量。
2 .裱框
将从模数转换(ADC)获得的语音样本分割成长度在20到40毫秒范围内的小帧的过程。将语音信号分成N个采样帧。相邻帧被M (M
第三步:汉明窗
在特征提取处理链中考虑下一个块,使用汉明窗作为窗形,并将所有最近的频率线进行整合。汉明窗方程为- Y(n)=X(n) × W(n)
图像
步骤4:快速傅里叶变换
将N个样本的每一帧从时域转换到频域。傅里叶变换是对声门脉冲U(n)与声道脉冲响应H[n]在时域内的卷积进行转换。这句话支持下面的等式:
Y(ω)= FFT (h (t) * X (t)) = h(ω)X(ω)
如果X(ω) H(ω) Y(ω)分别是X(t) H(t) Y(t)的傅里叶变换。
第五步:Mel滤波器组处理
场效应晶体管频谱的频率范围很广,语音信号不遵循线性尺度。根据Mel尺度的滤波器组如图2所示。
图像
图2显示了一组三角形滤波器,用于计算滤波器光谱分量的加权和,使过程的输出近似于梅尔尺度。每个filterÃ′Â′Â′的幅值频率响应呈三角形,等于中心频率处的效用,并在两个相邻滤波器的中心频率处线性下降至零。然后,每个滤波器的输出是其过滤后的光谱分量的和。然后用下面的公式计算给定频率f (Hz)下的Mel:
M=1127.01048log (1+ f / 700)
步骤6:离散余弦变换
这是利用离散余弦变换(DCT)将对数梅尔谱转换为时域的过程。转换的结果称为梅尔频率倒谱系数。系数的集合称为声向量。因此,每一个输入的话语都被转换成一个声向量序列。
3.矢量量化
VQ是一个将向量从一个大的向量空间映射到该空间中有限数量的区域的过程。每个区域被称为集群,可以用它的中心表示,称为质心。所有码字的集合称为码本。
图像
一个说话人可以根据质心的位置区别于另一个说话人,图3显示了一个概念图来说明这个识别过程。在图中,只有两个扬声器和两个维度的声学矢量显示出来。圆圈表示扬声器1发出的声音矢量,三角形表示扬声器2发出的声音矢量。在训练阶段,对每个已知说话人的训练声向量进行聚类,生成特定说话人的VQ码本。图3中分别用黑色圆圈和黑色三角形表示扬声器1和扬声器2的结果码字(质心)。从矢量到码本中最接近的码字的距离称为vq失真。在识别阶段,使用每个训练的码本对未知语音的输入话语进行“矢量量化”,并识别出总失真最小的总VQ码本。
4.特征匹配
在说话人识别中有许多特征匹配技术,如动态时间扭曲(DTW)。采用DTW技术进行特征匹配。
动态时间扭曲(DTW)
不同话语的时间对齐是语音识别中距离测量的核心问题。一个小的偏移就会导致错误的识别。DTW是解决时间对准问题的有效方法。DTW算法的目标是通过反复扭曲时间轴来对齐两个特征向量序列,直到找到两个序列之间的最优匹配。该算法对时间轴进行分段线性映射,以对齐两个信号。
考虑n维空间中的两个特征向量序列。
x = (x1, x2) ............ xn)
而且
(y1, y2 y = ............ yn)
这两个序列在网格的两侧对齐,一个在顶部,另一个在左侧。两个序列都从网格的左下角开始。
图像
在每个单元格中,放置一个距离测量,比较两个序列的对应元素。两点之间的距离通过欧几里得距离来计算。
Dist(x,y)= |x−y| =[(x,y)1可能是1) 2 + (x2可能是2) 2 +……+ (xn可能是n) 2)1/2
这两个序列之间的最佳匹配或对齐是通过网格的路径,这使它们之间的总距离最小化,这被称为全局距离。总体距离(全局距离)是通过找到并通过网格中所有可能的路线来计算的,每一条都计算总体距离。全局距离是路径上各个元素之间的距离之和(欧几里得距离)除以加权函数之和的最小值。对于任何相当长的序列,通过网格的可能路径的数量将非常大。利用递归公式得到全局距离。
GDxy=LDxy+ min (GDx-1 y-1, gx -1 y, GDxy -1)
在这里
GD= Global Distance(总距离)
LD=局部距离(欧氏距离)

数据库

数据库由环境控制的录音室中的两组语音样本录音组成,以尽可能减少录音期间对声音样本质量的声学干扰。第一组由五名说话者组成,每个人说的单词都来自相同的声音样本。所有语音信号都是在最相似的设置条件下记录的,例如相同的记录时间长度,声音振幅的水平。在培训中,代码编写者程序名为“trainâ '  '。在测试阶段,在执行名为“testâÂ′Â′”的代码编写程序时,假定用户可以从数据库中预先录制的测试组中选择任意一个语音样本。后端MFCC提取所选语音样本的特征。欧几里得距离测量测试程序在代码编写器程序的命令窗口中显示正确语音的最小距离及其结果。

结果

下表给出了标准识别和实时识别的不同性能参数。
图像
识别(标准数据库)
总字= 12
•同一个人同一个单词= 7
不同的词不同的人= 2
•同一个词不同的人= 2
不同的词同一个人= 1
识别(实时)
总字= 15
•同一个人同一个词= 9
不同的词不同的人= 3
•同一个词不同的人= 2
不同的词同一个人= 1

结论

本文的主要目的是利用MFCC和DTW对孤立语音进行识别。特征提取采用MFCC技术,特征匹配采用DTW技术。在未知语音信号与数据库匹配时,采用了一种基于最小化欧氏距离的失真测量方法。利用TMS620C6713编码编写器对实验结果进行了分析,证明了实验结果的有效性。并利用matlab实现了相同的语音识别。这个过程可以扩展到n个发言者。本文表明DTW是一种非线性特征匹配技术,具有错误率小、计算速度快等优点。

参考文献













全球科技峰会