所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

比较研究的MFCC和LPC算法Gujrati孤立词识别

h . b . Chauhan1b . a . Tanawala教授2
  1. M。E计算机学者,BVM工程学院,Vallabh Vidhyanagar,印度
  2. 计算机系助理教授,BVM工程学院,Vallabh Vidhyanagar,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

研究执行特征提取孤立词识别使用Mel-Frequency Cepstral系数(MFC古吉拉特语语言C)。它解释了特征提取方法MFCC和线性预测编码(LPC)。本文比较了表演的MFCC和LPC的特性在矢量量化(VQ)方法。数据集包括男性和女性的声音被训练和测试,每个单词重复5次了扬声器。结果表明,MFCC是表现更好的语音信号特征提取器。

关键字

特征提取、LPC的MFCC VQ,古吉拉特语数据库

我的介绍。

语音识别是语音处理的分析主题的机器。人类的语音识别是数千年的老和更好的被称为自动语音识别(ASR)。语音识别系统已经开发出来的语言,像印地文[1][2],马拉雅拉姆语[3][4],泰米尔[5],马拉地语[6],泰卢固语[7],旁遮普语[8],乌尔都语[9],在印度等…。使用MATLAB孤立语音识别®做是为了古吉拉特语单词。相对工作[10]博士c . k . Kumbharana完成古吉拉特语单词检测”?,? ? ?然后呢?”,使用MFCC函数。
执行这项研究有两个不同的特征提取算法和使用培训和测试数据从不同的单词? ?(八)? ? ? ?(三)和? ? ? ? ? ?(Gujaraati)等。每个演讲者所说的十个字0到10的数字和一些词与5的话语。四个扬声器,总计200的话语的话记录下来。古吉拉特语的单词记录使用内置的麦克风笔记本使用RecordPad软件[11]和存储在wav格式。数据被记录在封闭的房间,背景噪音。这种演讲的录音数据在这样嘈杂的环境中在强大的自动语音识别系统将是有用的。
本文分为五个部分。部分我给介绍。使用MFCC特征提取和LPC的描述在第二部分和第三部分,分别。结果在第四部分分析结论和未来的工作节V。

二世。使用MFCC特征提取

梅尔频率Cepstral系数(MFCC)介绍了戴维斯和Mermelstein在公元1980年。是很常见的一个最佳方法特征提取方法特别是对自动语音和说话人识别系统。手势识别的应用程序,使用MFCC特征提取器的输入图像转换成一维信号与支持向量机分类器[12]。MFCC系数可以作为音频分类特性来提高分类精度,用于音乐特性,然后摘要算法识别音乐类[13]。
介绍MFCCs之前,线性预测系数(lpc)和线性预测Cepstral系数(LPCCs), ASR的主要特征类型[14]。MFCC用于扬声器与扬声器等信息,验证内容和渠道[15]。MFCCs特性被广泛用于自动语音和说话人识别。有计算提取cepstral梅尔扩展频域特征参数。MFCC的波纹管的步骤,
如图1所示,信号通过第一阶段强调这将增加的能量信号在更高的频率补偿期间抑制声音的高频部分人类的生产机制。现在,提振信号划分为帧的帧大小的20 ~ 30 ms与重叠1/3 ~ 1/2。在这里,采样率是8 kHz和帧大小是256采样点,然后帧持续时间是256/8000 = 0.032秒= 32女士。每一帧将被乘以一个汉明窗为了保持连续性的第一个和最后一个点的框架。MATLAB®提供了命令生成的曲线汉明窗,也。有执行FFT获得假设每一帧的大小频率响应周期的框架。使用三角形带通滤波器来提取一个信封等功能。多个大小由一组三角形带通滤波器的频率响应得到每个三角形的日志能量带通滤波器将给非线性感知不同的音调或音高的声音信号。梅尔频率(F)与普通线性频率F是由以下方程[16]:
米(F) = 1125 * ln (1 + F / 700)………(1)
然后离散余弦变换(DCT)应用日志能源有不同的mel-scale cepstral系数。的DCT从频域信号转换成时域。因为,类似于倒频谱的特性,它被称为mel-scale cepstral系数。可以使用MFCC作为语音识别的特征。更好的性能可以通过添加日志生成的能源和执行增量操作。作为MFCC的新特性,可以生成δ倒频谱利用的能源衍生品的信号。它可以使用寻找能源和MFCC的速度和加速度。说话人识别系统在MATLAB MFCC基地®可显著提高训练和识别的准确率,并减少计算所需的数据在更高的识别率[17]。

三世。使用LPC的特征提取

线性预测编码(LPC)方法是在1960年代开发的[18],用于语音声音跟踪,因为它代表声道参数和数据大小非常适合语音压缩。[19]。本文修改LPC系数的方法是用于语音处理代表语音谱包络的压缩形式。这种方法使在低比特率编码质量好的演讲和演讲提供准确的估计参数描述的强度、残余信号。别的地方可以存储或传输的信息。dialect-independent小波变换(WT)是建立阿拉伯数字面前,提出了小波转换LPC的和更优雅的概率神经网络(并)[20]。男性和女性之间有扬声器的分类使用近邻方法,计算欧几里得距离意味着男性和女性的价值生成的意思。有13个MFCCs和13 lpc系数计算音频部分是从印度中提取视频歌曲[21]。
有基本的LPC的四个步骤处理器、预加重的数字化语音信号是平有限精度效应信号处理的影响较小。第二步的帧阻塞,输出信号是被限制在N帧的样本,与相邻帧没有隔开。M的样本。在窗口,窗口每个帧以最小化信号不连续在每一帧的开始和结束,一样在MFCC。有窗的信号的自相关分析将汽车相关每一帧为了给自相关值最高。在最后一步的LPC分析将每一帧的p + 1自我进用杜宾LPC参数集的方法。在方程中,每个样本信号的x (n)表示为一个线性组合的样品x (n−1)叫做线性预测编码[22]。这里,ai的预测系数。
图像
LPC和MFCCs系数组合可以使用动态或运行时特征提取。这些组合都可以使用作为演讲者的情感特征向量确定像生气,无聊,中性的,快乐和悲伤[23]。印地语字母表进行情感识别使用音节模式出现在辅音元音辅音(CO3VCO3) [24]。

四、结果分析

矢量量化(VQ)是用于比较与新的输入数据输入训练数据。这是一个经典的量化技术,允许分布概率密度函数的建模的向量。它将大量的点称为向量划分集团拥有大约相同数量的点最亲近的人。密度矢量的匹配属性强大的识别的密度大,高维数据[25]。所有数据点都由他们最亲密的质心的指数可用于有损数据校正和密度估计。矢量量化是自组织映射模型。
使用MFCC和LPC的特性提取的古吉拉特语单词。矢量量化的训练数据集是古吉拉特语单词的记录获得的话语。输入的数据与已经存储的数据集。比较两种算法的三个字在下面图表。
由LPC的识别准确率达到85%以上,图1所示。识别精度是通过MFCC更超过95%,表2所示。
MFCC可以带来更好的功能古吉拉特语语言教师在语音识别中的应用。相匹配的输入语音训练数据库转换成相关文本,和结果图2所示(一个)描述数字8,(b)描述了数字3 (c)描述词“古吉拉特语”、“攻击”(d)描述词,(e)描述了单词“古吉拉特语”和“阿默达巴德”,(f)描述了单词“攻击”和“Hiral”(名称)在古吉拉特语语言。

诉的结论和未来的工作

的方法是实现孤立的古吉拉特语语言的语音识别系统。MFCC和LPC的作为语音特征提取器。的算法是紧随其后的是矢量量化方法测试,有助于得出MFCC更加准确真实语音信号的特征提取器。目前的研究仅限于古吉拉特语的音素。连续语音识别的进一步研究可以使用MFCC特征提取算法和隐马尔可夫模型(HMM)用于测试和建模的目的。大词汇量语音识别(VLSR)使用MFCC和PLP特征提取算法和嗯结合人工神经网络(ANN)进行更好的分类。

承认

特别感谢教授博士Mayur M。Vegad BVM工程学院坚持很多真诚和卓越的工作。

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4

引用


























全球技术峰会