硬件实现的语音识别使用MFCC和欧氏距离

UmaraniJ.Suryawanshi¹s . r . Ganorkar博士,教授²

E&TC工程系,Sinhgad工程学院,印度浦那
教授,E&TC工程系,Sinhgad工程学院,印度浦那

文摘

提出基于数字信号处理器(DSP)的语音识别系统,提高性能的识别精度和计算成本。特征提取的各种方法的综合萨里像梅尔·梅尔频率倒谱系数滤波器(MFCC)。本文描述了一种方法孤立语音识别的数字信号处理器TMS320C6713使用梅尔频率Cepstral系数和欧氏距离。从语音信号中提取一些特征的口语词汇。总额的一个实验数据库五个扬声器,说5 - 10的单词每个收集在听觉上控制房间。MFCC从语音信号中提取的口语词汇。比较国际米兰来说使用欧氏距离的差异

关键字

模式识别,语音识别,特征提取MFCC欧几里得距离。

介绍

语音识别是一个过程,自动识别说话人根据语音信号的信息。每个口语使用的语音组合创建一组元音,半元音和辅音语音单位。基于流行的光谱参数用于识别方法是梅尔频率Cepstral叫做MFCC系数,MFCCA¢s是系数,代表音频,基于对人类听觉系统的认知。FFT的基本区别操作/ DCT和MFCC是MFCC的频段是定位对数(mel刻度),接近人类听觉systemA¢年代比线性响应更紧密间隔的频带FFT或DCT。

文献调查

的系统包括麦克风输入语音信号的形式。言语处理器的数据采集系统获得的输出麦克风然后itdetects确切的说如果这样一个系统是安装在汽车,然后通过几个开始,停止,向前,backwardetc。我们甚至可以开carwithout手中。[1]。动态时间规整(DTW)算法是一种最流行的语音识别领域的数学模型。

广泛应用于一些特殊的资源匮乏等领域嵌入式系统因其简单而有效的算法。DTW-based应用便携式增值税计算器与演讲者从属连接词和孤立词语音识别能力。[2]自动语音识别是一个有趣的任务,但它需要很多努力。随着技术的发展,语音识别系统取得优秀的成果,仍拥有一些主要的局限性。特别是识别系统与隐马尔科夫模型(HMM)的主要元素是适合许多应用程序,但不要受到重大限制,使语音识别系统不适合实时应用程序[2]。

一个孤立的词,议长依赖语音识别系统能够识别口语词汇在足够高的精度。系统已经测试并验证了在MATLAB和TMS320C6713 DSK的整体精度超过90%。一个孤立词语音识别系统需要用户每次话语后暂停。系统中有两个阶段:训练和识别。在训练阶段,每个口语的训练向量生成的用户。培训向量提取分离不同种类的单词的特点。每个培训向量可以作为一个字或一个字类的模板。在识别阶段,用户说任何字的系统训练。一个测试模式生成的这个词并显示相应的文本字符串作为输出技术使用模式比较。[3]

自动语音识别(ASR)是大多数发展中现代科学领域有广泛的应用。语音识别的统计方法提取共振峰的演讲和分析他们的行为。这是一个语音识别的新方法。整个分析语音识别是基于在五个共振峰的演讲。乌尔都语演讲和的方法测试结果精度高。共振峰的影响是语音的频谱模式。正是由于频谱强烈声道共振的影响。当声音共振的影响明显的语音的谱,谱峰可以称为语音的共振峰。共振峰是声道的声特性,产生光谱。语音的共振峰编号以频率[4]。

在语音识别中,线性预测系数(LPC)基于LPC分析或梅尔频率倒频谱Cepstral系数(MFCC)是基于Mel-frequency过滤器银行被广泛用作决定性能的特征提取。复杂参数转换为LPCCA¢年代和MFCC作为特征向量的HTK(嗯工具包)为了实现HMM语音识别。通过连续语音识别实验和转换LPCCs MFCCs,发现复杂的语音分析方法不会比现实表现良好[5]。

自动语音处理系统使用越来越经常在现实环境。然而他们面对高环境噪声水平和性能大幅降低。因此,强烈的需要在噪声条件下提高这些系统的性能。语音模型的适应包括噪声的影响。方法使用这种方法包括biascompensation算法和并行模型组合[6]。语音识别技术的测试数据被转换为模板。然后识别过程包括与存储模板匹配传入的演讲。最低的模板距离测量从输入模式是公认的词。最低的距离测量是基于动态规划。这被称为动态时间扭曲(DTW)词识别。 In order to understand DTW the two concepts need to be dealt with, features and distance [7].

语音识别

1。识别算法

语音分析完成后通过麦克风从用户输入。系统的设计涉及操纵输入音频信号。不同级别,不同的操作执行的输入信号如预加重、框架、窗口、梅尔倒谱分析和匹配(识别)的口语。

2。特征提取

最好的声学参数表示信号的提取是一个重要的任务产生更好的识别性能。MFCC算法用于提取特征。- MFCC选择以下原因

1。它让干净的准确性对清洁演讲。

2。MFCC可以被视为“标准”的特性在扬声器以及语音识别。

3所示。MFCC最重要的功能,这需要在各种语音应用程序。

如图1所示MFCC的计算步骤。每一步都有其功能和数学方法在以下——简要讨论

步骤1:预加重

这一步处理强调更高频率的信号通过滤波器。这个过程将增加信号的能量在更高的频率。

步骤2:框架

这个细分的过程获得的语音样本从模拟到数字的转换(ADC)到一个小框架与20至40毫秒的长度范围内。N的语音信号分为帧样本。相邻帧被M分离(M < N)。典型值使用M = 100和N = 256。

步骤3:汉明窗

汉明窗作为窗口形状通过考虑特征提取处理链中的下一个块和整合了所有最接近的频率线。汉明窗方程给出X - Y (n) = (n)×W (n)

第四步:快速傅里叶变换

将每一帧的N样品从时域到频域。傅里叶变换的卷积转换声门的脉冲U (n)和声道在时域脉冲响应H [n]。这个声明支持以下方程:

Y(ω)= FFT (h (t) * X (t)) = h(ω)X(ω)

如果X(ω),H(ω)和Y(ω)的傅里叶变换X (t), H (t)和Y (t)。

第五步:梅尔·过滤器银行处理

场效应晶体管频谱很宽的频率范围和语音信号并不遵循线性范围。过滤器根据梅尔银行规模如图2所示。

这图2显示一组三角形过滤器,用于计算的加权和过滤器谱组件的输出过程接近梅尔规模。每个filterA¢s级频率响应三角形状和等于在中心频率,减少线性效用在中心频率为零的两个相邻过滤器。然后,每个滤波器输出的总和光谱过滤组件。后,下列方程是用来计算给定的梅尔·赫兹频率f:

M = 1127.01048包厢(1 + f / 700)

第六步:离散余弦变换

这个过程将日志梅尔谱转化为时域使用离散余弦变换(DCT)。转换的结果叫做梅尔频率倒谱系数。的系数称为声向量。因此,每个输入话语声向量的转化为一个序列。

3所示。矢量量化

矢量量化的过程从大型向量空间向量映射到一个空间有限的地区。每个地区称为集群,可以用其中心称为重心。所有码字的集合称为电报密码本。

一位发言者可以从另一个歧视基于质心位置的图3显示了一个概念图来说明这一识别过程。在图中,只有两个扬声器和声学矢量的两个维度。圈是指扬声器的声矢量1尽管演讲者的三角形是2。在训练阶段,一个演讲者,特定的VQ码书生成每个已知的演讲者通过集群他/她的训练声向量。结果码字(重心)如图3所示,黑色圆圈和黑色三角形议长分别为1和2。一个向量的距离最近的代码wordof密码本叫做VQ-distortion。在识别阶段输入未知声音的话语是“vector-quantized”使用每个训练速率和总VQ码书和最小总失真识别。

4所示。特征匹配

有许多特征匹配技术用于说话人识别,如动态时间规整(DTW)。DTW技术用于特征匹配。

动态时间规整(DTW)

不同话语的时间校准测距在语音识别的核心问题。一个微小变化会导致不正确的识别。DTW是有效的方法来解决时间对齐问题。DTW算法旨在调整两个序列的特征向量通过扭曲时间轴重复直到两个序列之间的最佳匹配。该算法执行时间轴的一个明智的线性映射的一致的信号。

考虑两个序列的特征向量n维空间。

x = (x1, x2)…………xn)

和

y = [y1, y2…………yn)

上的两个序列是一致的网格,顶部有一个和其他在左边。这两个序列在网格的左下角。

在每一个细胞,一个距离测量,比较两个序列的对应元素。两个点之间的距离通过欧氏距离计算。

Dist (x, y) = x−y | | = [(x₁可能是₁)2 + (x₂可能是₂)2 +……+ (x_n可能是_n)2)^1/2

这两个序列之间的最佳匹配和定位是通过网格路径,最大限度地减少它们之间的总距离,称为全球距离。总体距离(全球)发现,通过计算所有可能的路线通过网格,每一个计算距离。全球距离之和的最小距离(欧氏距离)之间的路径上的单个元素除以权重函数的总和。任何相当长时间序列可能的路径通过网格的数量将会非常大。使用递归公式获得全球距离测量。

GDxy = LDxy +分钟(GDx-1 y-1, GDx-1 y, GDx y-1)

在这里

整体GD =全球距离(距离)

LD =当地距离(欧氏距离)

数据库

数据库由两组语音样本记录在一个环境控制记录房间少都可能声学干扰声音样本记录期间的质量。第一组包括5人,总说e单词每个相同的声音样本。所有语音信号被记录在大多数类似的设置条件下如记录时间的长度相同,声音振幅的水平。在训练中,代码作曲家程序命名„trainA¢。在测试阶段代码作曲家程序名为„甲壳¢是在假设用户选择任何执行语音样本的测试组数据库中预先录制好的。MFCC在后端提取的特征选择的语音样本。欧氏距离度量的最小距离,其结果显示正确的口语测试程序代码的命令窗口作曲家计划。

结果

在下表中给出不同的性能参数和实时识别标准。

识别(标准数据库)

总字= 12

•同一个人同一个词= 7

•不同的词不同的人= 2

•同一个单词不同的人= 2

•不同的同一个人= 1

识别(实时)

总字= 15

•同一个人同一个词= 9

•不同的词不同的人= 3

•同一个单词不同的人= 2

•不同的同一个人= 1

结论

本文的主要目的是识别使用MFCC和DTW孤立的演讲。特征提取是通过使用MFCC和特征匹配是使用DTW技术完成的。基于欧氏距离最小的失真测量时使用与数据库匹配未知语音信号。实验结果分析的帮助下代码的作曲家TMS620C6713,证明结果是有效的。还使用matlab实现相同的语音识别。这个过程可以扩展为n的扬声器。这个papershow DTW非线性特征匹配技术在语音识别、最小错误率和计算速度快。

引用

穆罕默德·萨尔曼·Haleem“语音控制自动化系统”,第12届IEEE国际Multitopic研讨会论文集,2008年12月23 - 24日,2008年。

春湾,LiliLiu”,研究和改进的嵌入式系统应用DTW-based语音识别”,IEEE 2008。

塔拉尔•本•阿明ItekharMahmood,“语音识别使用动态时间扭曲”,第二次国际会议上的进步spaceTechnologies,伊斯兰堡,29日th-30th Nov.2008,影响,pp.74 - 79。

AhmadAli、SafiullahBhatti Dr.MuhammadSleemMilan,“基于共振峰分析语音识别”,IEEE 1-4244-0457 - 6/06 20.00美元,2006。

Tasuhiko Kinjo Keiichi Funaki,“基于HMM语音识别复杂的演讲分析”,IEEE 1-4244-0136 - 4/06 / 20.00美元,2006年,pp.3477 - 3480。

你们田,霁Wu Zuoying王Daijn Lu,“健全噪声语音识别与自适应频率银行选择”,第四届IEEE国际会议Proc. Mutimodal接口,2002。

Ben Mosbah Belgace“语音识别对残疾的人”,IEEE 0 - 7803 - 9521 - 2/06 / 20.00美元,2006年,pp.864 - 869。

J.Kim Heungsuk下巴,我。金,Y。Kwon K。李,米阳,“使用DSP实现语音识别”,ISIE 2001年Pysan,韩国,2001,pp.508 - 512。

SwapnilD。Daphal SonalJ。Jagtap,“基于DSP的提高语音识别系统”,国际会议交流,信息计算技术,奥克托。月19日至20日,孟买,印度,2012。

Jaime Zabalz JinchangRen,胭脂克莱门特,盖太诺迪Caterina和约翰Soragha“嵌入式SVM对TMS320C6713信号预测分类和回归应用程序”,5日教育和研究会议,13 - 14 sept.2012时,pp.90 - 94。

Xiu-Qing张Shu-Wang陈,“基于DSP的语音识别系统和支持向量机”,《第九次国际会议在机器学习和控制论,青岛,2010年7月11 - 14号,pp.2313 - 2316。

TakeyukiEndo EijiOhira Kitazume义明,“大规模集成电路实现的语音识别的模式识别算法”,IEEE的音响、语音信号处理,Assp-33卷,没有。1,Febrauary 1985。