所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

语音识别使用随机方法:审查

Ranu武断的话1Navdeep考尔2
M。理工大学学生,信息技术、昌迪加尔工程学院,Landran,莫哈里(印度旁遮普1
信息技术学院、昌迪加尔工程学院Landran,莫哈里(,印度旁遮普1
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

在todaya€Ÿ年代世界,语音识别是非常重要的和受欢迎的。自动语音识别系统包括三个阶段:预处理、特征提取和识别。语音识别是一个过程,将口语词汇转换成文本。语音识别的研究主要使用三种不同的方法即追随者声学语音的方法,模式识别方法和人工智能方法。本文的主要目的是讨论语音识别和研究的各种技术隐藏的马尔可夫模型随机的方法来开发基于声音的,用户界面友好的软件系统。

关键字

自动语音识别(ASR),隐马尔可夫模型(HMM),特征提取。算法,随机方法

介绍

语音识别:定义和问题:语音识别的过程是将一个输入声信号(输入音频格式的口语词汇的形式)和识别各种单词包含在演讲。这些认可的话可以最终结果,可以作为命令和控制,或者他们可以作为进一步的语言处理的输入。简而言之,语音识别可以放在一起的能力将音频格式作为输入,然后生成文本格式作为输出。
语音识别[1][2]涉及不同的步骤:
1。录音
2。词边界检测
3所示。特征提取[3]
4所示。识别的语言模型[4]

二世。语音识别的方法:

语音识别过程处理语音变化和占学习特定的话语之间的关系和相应的词或词[5]。一直稳步推进领域的语音识别在最近一年有两个趋势[6]。首先是学术方法,第二个是务实的,包括技术,它提供了简单的低级与机器互动,与按钮和开关取代。第二种方法是有用的,前者主要为未来做出承诺。有三种方法可以语音识别[7][8][9]。
答:Acoustic-phonetic方法[10][11][12][13]
b .人工智能方法
c .模式识别方法
Acoustic-phonetic方法:最早的语音识别方法是基于发现语音和提供适当的标签,这些声音。这是声学语音的基础的方法(Hemdal和休斯1967),它假定存在有限的,独特的语音单位(音素)口语,3这些单位是由一组广泛的特点体现在语音信号的声学特性。尽管语音的声学性质单位高度变量,两个扬声器和邻近的声音(所谓的公司清晰度效应),假定acoustic-phonetic方法,规则的可变性非常简单,很容易学会了一台机器。声学语音的方法的第一步是光谱分析的演讲结合特征检测光谱测量转换为一组特性描述的广泛的声学性质不同的语音单位。下一步是语音信号的分类和标记阶段划分为稳定声地区,其次是将一个或多个语音标签附加到每个分割区域,导致音素晶格特征的演讲。最后一步在这种方法试图确定一个有效的词(或字符串的话)语音标签序列分割产生的标签。在验证过程中,对任务(即语言限制。,the vocabulary, the syntax, and other semantic rules) are invoked in order to access the lexicon for word decoding based on the phoneme lattice. The acoustic phonetic approach has not been widely used in most commercial applications [14].
B人工智能方法(基于知识方法):[15]的人工智能方法是一种混合的声学语音方法和模式识别方法。在这方面,它利用声学语音的想法和概念和模式识别方法。基于知识的方法使用的信息关于语言,语音和声谱图。一些演讲人员开发识别系统,利用声学语音知识开发语音分类规则。虽然基于模板的方法非常有效的各种语音识别系统的设计;他们很少了解人类语言处理,从而使误差分析和以知识为基础的系统增强困难。另一方面,大量的语言和语音文学提供的见解和理解人类语言处理。在纯形式,知识工程设计包括直接和明确的公司专家演讲知识识别系统。这些知识通常是来源于谱图的仔细研究,结合使用规则或过程。纯知识工程也是出于兴趣和研究专家系统。 However, this approach had only limited success, largely due to the difficulty in quantifying expert knowledge. Another difficult problem is the integration of many levels of human knowledge phonetics, phonotactics, lexical access, syntax, semantics and pragmatics. Alternatively, combining independent and asynchronous knowledge sources optimally remains an unsolved problem. In more indirect forms, knowledge has also been used to guide the design of the models and algorithms of other techniques such as template matching and stochastic modeling. This form of knowledge application makes an important distinction between knowledge and algorithms Algorithms enable us to solve problems. Knowledge enable the algorithms to work better. This form of knowledge based system enhancement has contributed considerably to the design of all successful strategies reported. It plays an important role in the selection of a suitable input representation, the definition of units of speech, or the design of the recognition algorithm itself.
c .模式识别方法:模式匹配方法(Itakura 1975;拉宾1989;拉宾和Juang 1993)包括两个基本步骤即模式训练和模式比较。这种方法的基本特征是,它使用一个数学框架制定和建立一致的演讲模式表示,对于可靠的模式比较,从一组标记训练样本通过一个正式的训练算法。模式的一次演讲中表示可以在语音模板的形式或统计模型(例如,一个隐藏的马尔科夫模型或嗯[21][22][23][24][25][26],可以应用于声音(小于一个字),一个字,或一个短语。pattern-comparison阶段的方法,两者之间的直接比较未知的演讲(语音识别),每个可能的模式在培训中学到的阶段,为了确定未知的善良的身份匹配的模式。模式匹配的方法已经成为语音识别的主要方法在过去六十年[14]。在这方面,存在两种方法即模板方法和随机方法。
1。基于模板的方法:基于模板的方法[15]语音识别提供了一个家庭领域先进的技术在过去的60年。底层的想法很简单。一组典型的演讲模式存储为参考模式代表候选人年代单词的词典。然后进行识别匹配一个未知的口语话语与每一个参考模板和选择最佳匹配模式的类别。通常模板构造整个单词。这样做的优势在于,错误由于分割或较小的听觉上更多的变量分类单位如音素是可以避免的。反过来,每个单词必须有它自己的全部参考模板;模板准备和匹配成为昂贵或不切实际的词汇量大小增加超出了几百字。模板方法的一个关键概念是派生的典型的语音帧序列模式(一个单词)通过一些平均过程,并依靠本地频谱的使用距离比较模式的措施。 Another key idea is to use some form of dynamic programming to temporarily align patterns to account for differences in speaking rates across talkers as well as across repetitions of the word by the same talker.
2。随机的方法:随机建模[15]需要使用概率模型来处理不确定或不完整的信息。在语音识别中,不确定性和不完全性产生,还可以从许多别的来源;例如,可能被混淆的声音,议长可变性年代,语境效果,同音字。因此,随机模型特别适合语音识别方法。今天最流行的随机方法隐马尔科夫模型。一个隐藏的马尔可夫模型的特点是一个有限状态马尔可夫模型和一组输出分布。马尔可夫链模型的转换参数,颞可变性,而输出的参数分布模型、光谱可变性。这两种类型的variabilites语音识别的本质。基于模板的方法相比,隐马尔科夫模型更通用,具有坚实的数学基础。 A template based model is simply a continuous density HMM, with identity covariance matrices and a slope constrained topology. Although templates can be trained on fewer instances, they lack the probabilistic formulation of full HMMs and typically underperforms HMMs. Compared to knowledge based approaches; HMMs [27] [28] [29] [30] [31] [32] enable easy integration of knowledge sources into a compiled architecture. A negative side effect of this is that HMMs do not provide much insight on the recognition process. As a result, it is often difficult to analyze the errors of an HMM system in an attempt to improve its performance. Nevertheless, prudent incorporation of knowledge has significantly improved HMM based systems.

三世。隐马尔可夫模型

嗯是在1980年代开发的关键技术之一,是隐藏的马尔可夫模型(HMM)方法[16][17][18]。这是一个双重随机过程作为一个潜在的随机过程,不可见(因此术语隐藏),但可以通过另一个随机过程,产生一个观察序列的观测。虽然HMM是众所周知的和理解在一些实验室(主要是IBM,国防分析研究所(IDA)和龙系统),直到广泛发表摘要的方法和理论在1980年代中期技术广泛应用于几乎所有世界上语音识别研究实验室。在1970年代早期,Lenny Baum普林斯顿大学的发明了一种数学方法识别演讲称为隐马尔科夫模型(HMM)。
嗯模式匹配策略最终被采用的每个大公司从事语音识别技术的商业化(SRT)。美国国防部资助许多实际研究项目在70年代,一些承包商,包括IBM、龙、AT&T、飞利浦等。在这些早期进展缓慢。嗯的技术已被广泛接受在今天?现代国家或艺术ASR系统主要有两个原因:其功能模型的非线性依赖演讲单元在相邻单元和一组功能强大的分析方法提供了估计模型参数[19][20]
a嗯的定义和描述:隐马尔可夫模型(HMM)[33][34][35][36][37][38][39][40]是一个状态机。模型的状态表示为节点和表示为边缘的过渡。嗯是符号的区别,以防不唯一地标识状态。新状态是由符号和概率从当前状态转换到一个候选人的状态。[1]是一个教程嗯,展示了如何使用它。图1显示了如何在一个嗯。节点表示为圆形。O1和O5观测。观察O1送我们到州S1。aij定义Si和Sj之间的转移概率。 It can be observed that the states also have self transitions. If we are at state S1 and observation O2 is observed, we can either decide to go to state S2 or stay in state S1. The decision is made depending on the probability of observation at both the states and the transition probability.
因此HMM模型的定义是:
λ= (Q, O, A, B,π)
问在哪里{气}(所有可能状态)
O {vi}(所有可能的观察)
就是aij {aij} = P (Xt + 1 = qj | Xt =气)(过渡概率)
B {bi} bi (k) = P (Ot = vk | Xt = qit)(观察观察k状态的概率)
π是我}{ππi = P (X0 =气)(初始状态概率)
在时间t Xt表示状态
不表示在时间t的观察。
b嗯,语音识别:嗯可以在不同的标准分类:
1。出现的离散值
——连续
2。维
——一维
——多维
3所示。概率密度函数
基于连续密度(高斯分布)
——基于离散密度(向量量子化)
虽然使用HMM识别,我们提供的事件模型,它返回一个数字。这个数字的概率模型会产生输出(出现)。在语音识别事件特征向量而不是符号。因此对于每一个事件,特征向量的一组实数。因此,我们需要对语音识别是一个连续的,多维嗯[39][40][41][42][43][44][45]。
c实现:嗯库,看了看:
HTK:嗯工具——成熟嗯实现。但是使用的许可证不允许重新分配的代码。嗯的c++实现林德康教授:这个实现的问题是一个离散HMM的实现。GHMM: GHMM嗯的开源库。它同时支持离散和连续嗯。但是它没有支持多个维度。
连续嗯库,支持向量观测,在项目的实施。图书馆使用高斯概率分布函数。XML文件包含一个规范的嗯。样品有五个州一个向量大小的三根标记的嗯嗯文件表明,文件包含一个HMM模型。标签有两个属性状态和vector-size指示的状态数和向量大小分别观察的嗯。每个州由即将离任的边缘概率。这些边存储转换标记内的状态。每个标签都有目标状态id和过渡的可能性。一个国家也有一个或多个混合物。混合物由一个向量的均值和方差的矩阵,每个维度。这些均值和方差是用来计算概率发生。 The way of calculating the probability is discussed.

四、使用嗯识别

认识一个词的单词使用现有的模型。录音机需要记录的声音当它检测到一个词的存在。这听起来记录然后通过特征向量提取器模型。上述模块的输出特性采取每10毫秒的列表。这个功能是传递给识别模块识别。所有单词的列表的系统培训和相应的模型给出了一个文件叫做模型在摘要中出现。所有模型相应的单词然后加载在内存中。特征向量生成的特征向量发生器模块作为观察识别模块的列表。代的观测模型,概率P (O |λ),计算每个模型的使用发现概率函数。这个词对应嗯[46][47][48][49][50],出的概率最高,高于阈值,被认为是口头的。
答:向前变量
变量是用于查找列表出现的概率嗯。与N模型,概率的观察,提出变量模型被定义为
图像
在αt + 1是递归的定义为
图像
在哪里图像
b .训练模型
列车指挥训练系统用于一个新单词。该命令需要至少三个参数:
1。没有州HMM模型应该有N。
2。特征向量的大小。
3所示。一个或多个文件名每个包含一组训练。
生成一个初始嗯我们把N同样放置观察(特征向量)从第一个训练集。每一个都是用来训练一个单独的国家。训练后美国平均向量的大小D和方差矩阵大小D * D包含所有零。然后为每个剩余的观察,我们发现它和均值向量之间的欧几里得距离的状态。我们指定一个观察培训到最近的状态。国家分配连续跟踪观测发现过渡概率。

诉的结论

在本文中,我们讨论了语音识别的各种技术和研究隐马尔科夫模型(HMM)。我们观察到,嗯最好在所有建模技术。本研究进行了开发基于声音的,用户界面友好的软件系统。我们可以在各种应用程序,可以使用它以优势为真正的接口。我们将使用它为盲人和视障人士未来虚拟眼。

确认

作者仍然感谢Rajvinder辛格(H.O.D计算机科学工程、公司治理文化Landran莫哈里(),对他们有用的讨论和建议在准备技术论文。

数据乍一看

图1
图1

引用

  1. Ripul古普塔(2011),“印地语的语音识别,”M。科技论文,IIT孟买。
  2. Abhisek保罗(2011),“在印地语语音识别,”M。科技论文,国立技术,Rourkela
  3. 问:朱镕基和a . Alwan(2003),“非线性特征提取在平稳和非平稳噪声鲁棒语音识别,“计算机语言,17卷,没有。4,pp.381 - 402。
  4. b . f•耶利内克Merialdo、美国Roukos和m·施特劳斯我“语音识别的动态语言模式,”IBM研究部,托马斯·沃森研究中心,10598年纽约约克镇
  5. Anusuya和Katti(2009),“语音识别机器:回顾,“国际计算机科学与信息安全杂志,下册,3号pp.181 - 205
  6. Abdul Kadir也K(2010),“承认人类语言使用q-Bernstein多项式,“国际计算机应用、杂志》第2 - 5号,pp.22-28。
  7. Reddy, r(1976),“语音识别机器:回顾”,在IEEE事务程序,64卷,第4期,页501 - 531。
  8. Gaikwad, Gawali Yannawar(2010),“语音识别技术审查,”计算机应用的国际期刊,Vol.10,第三,pp.16-24。
  9. 罗西尼B Shinde和V P帕瓦尔(2012),“回顾声学语音方法马拉地语的讲话,“认可。国际期刊《计算机应用(2):59 40-44。
  10. 弗·l·M。,Shannon, R. V., Bas¸kent, D., and Wang, X. (2001), “Speech recognition in noise as a function of the number of spectral channels: Comparison of acoustic hearing and cochlear implants,”J. Acoust. Soc. Am. 110(2), 1150–1163.
  11. a·穆罕默德·g·达尔,g .辛顿(2012),“声学建模使用深层信念网络,”IEEE音频,演讲,和语言的处理,20卷,没有。1,14-22页。
  12. 邓(2003).“切换语音清晰度和音响、动态系统模型”在演讲和语言处理的数学基础,115 - 134页。斯普林格出版社,纽约
  13. l·邓和d·余(2007),“使用声学特性的微分cepstra隐藏轨迹造型的语音识别,“在Proc.ICASSP, 445 - 448页。
  14. Dat答Tran(2000),“模糊语言和说话人识别方法,“学位论文提交的堪培拉大学的哲学博士。
  15. R.K.Moore(1994),“二十我们仍然不知道演讲,“Proc.CRIM / FORWISS„研讨会演讲研究进展和前景的技术”。
  16. J.Ferguson, Ed(1980),“隐马尔科夫模型的演讲,”艾达,普林斯顿,纽约。
  17. L.R.Rabiner,(1989),“一个教程隐马尔科夫模型和选择在语音识别中的应用,“Proc.IEEE, 77 (2), pp.257 - 286。
  18. L.R.拉宾和B.H.Juang(1993),“语音识别原理”,新世纪,恩格尔伍德悬崖,新泽西。
  19. Picone j .(1990),“继续使用隐马尔可夫模型的语音识别系统,“IEEE ASSP杂志,第七卷,问题3,26-41页。
  20. Flahert, M.J.和西德尼,t(1994),“嗯的实时实现语音识别对于电信应用程序,“声波IEEE国际研讨会论文集,演讲,和信号处理,(ICASSP)下册,第145 - 148页。
  21. Leggetter, c &林地,p .(1995),“最大似然线性regession议长改编的连续密度摘要计算机语言,“9,171 - 186。
  22. Sak h;Saraclar m;Gungor t (2012),“Morpholexical土耳其和歧视的语言模型自动语音识别,“音频,演讲,和语言的处理,IEEE,卷。20日,没有。8日,pp.2341 - 2351。
  23. m·理查森j . Bilmes和c Diorio (2003),“Hidden-articulator Markovmodels语音识别,“言语交际,第41卷。。2 - 3、511 - 529页。
  24. 大冢,T。,and Ohya, J. (1998), “Spotting segments displaying facial expression from image sequences using HMM,” IEEE Proceedings of the Second International Conference on Automatic Face and Gesture Recognition (FG?98), Nara, Japan, pp. 442–447.
  25. Nefian,梁L H,πX B(2002),“视听语音识别的耦合的嗯。“在国际会议音响、语音信号处理:2013 - 2016。
  26. 益,k .德田、t .小林和美国Imai(1996),“语音合成使用动态特性,从摘要”Proc。ICASSP pp.389 - 392。
  27. t . Yoshimura k .德田地被t, t .小林和。Kitamura(1999),“同时建模光谱、音高和时间在HMM-based语音合成,“Proc。EUROSPEECH, pp.2347 - 2350。
  28. h .禅宗和n Braunschweile(2009),“上下文相关的附加日志F0模型HMM-based语音合成,“Proc。Interspeech,页2091 - 2094
  29. k . Oura h .禅,y Nankaku,,李,和k·德田(2010),“Covariance-Tying HMM-based语音合成技术,”IEICE, E93-D卷,没有。3,pp.595 - 601。
  30. k .德田t .益:宫崎骏与t .小林(1999),“隐马尔可夫模型基于Multi-SpaceProbability分布音高模式建模、“Proc。ICASSP,页229 - 232。
  31. H G Heigold R Schlter,奈伊(2007),“高斯嗯和高斯HMM-like隐藏的等价条件随机域,“在Interspeech, 2007年,页1721 - 1724
  32. j·凯撒,b .霍尔瓦特和z Kacic(2000),“小说损失函数基于整体风险标准区别的训练HMM模型,“在Proc。ICSL。
  33. M J F大风(1998),“最大似然线性变换HMM-based语音识别”,计算机语言,12卷,第75 - 98页。
  34. 邓Acero, L、T Kristjansson和J张(2000),“嗯适应使用向量泰勒级数嘈杂的语音识别,“inProc。ICSLP,北京,中国。
  35. k .德田t . Yoshimura t .益,t .小林和t . Kitamura (2000),“HMM-based语音合成语音参数生成算法,”在Proc。ICASSP 2000年,页1315 - 1318。
  36. h .禅、k·德田和t . Kitamura(2007),“调整HMM atrajectory模型实行明确的静态和动态特征矢量序列之间的关系,“计算机语言,卷。21日,没有。1,页153 - 173。
  37. c . Wellekens(1987),“明确的时间相关性隐马尔可夫模型的语音识别,“在Proc。ICASSP, 12卷,1987年,页384 - 386。
  38. p·肯尼,m . Lennig和p . Mermelstein(1990),“一个线性预测嗯向量值观测与应用sp演讲识别,“IEEE反式。Acoust。,Speech, Signal Process., vol. 38, no. 2, pp. 220–225.
  39. p .林地(1992),“隐马尔可夫模型使用向量线性预测和歧视输出分布,“在Proc。ICASSP 1992年,页509 - 512。
  40. b . Juang和l·拉宾(1985),“混合自回归隐马尔可夫模型对语音信号,“IEEE反式。Acoust。,Speech, Signal Process.,vol. 33, no. 6, pp. 1404–1413.
  41. m·香农和w·伯恩(2009),“语音合成的自回归摘要”,在Proc。Interspeech 2009年,页400 - 403。
  42. c . Quillen(2012),“自回归嗯语音合成,”Proc。ICASSP, 2012年,页4021 - 4024。
  43. 高温超导工作组(2012),“HMM-based语音合成系统”(高温超导),http://hts.sp.nitech.ac.jp
  44. t . Yoshimura k .德田t .益,t .小林和t . Kitamura (1998),“HMM-based语音合成时间建模,”Proc, ICSLP
  45. h .禅,k .德田t .益,t . Kobayasih和t . Kitamura(2007),“一个隐藏的半马尔科夫模型的语音合成系统,“IEICE反式。正,系统。,vol. E90-D, no. 5, pp. 825–834.
  46. Yu和h .小林(2003),“一个高效forward-backward explicit-duration隐藏的马尔可夫模型的算法,“IEEE信号的过程。列托人。,vol. 10, no. 1, pp. 11–14.
  47. h .禅(2007),“实现HSMM-based语音合成系统使用一个高效forward-backward算法,“名古屋的理工学院,技术报告tr - sp - 0001。
  48. Annon和w·恩”,制定autoregressiveHMM的语音合成(2009),“工程部门,剑桥大学英国技术报告暗示/ F-INFENG / TR。629年,http://mi.eng.cam.ac.uk/sms46/papers/shannon2009fah.pdf。
  49. t .户田拓夫和k·德田(2007),“语音参数生成算法考虑全球方差HMM-based语音合成,“IEICE反式。正,系统。,vol. E90-D, no. 5, pp. 816–824.
  50. t . Yoshimura k .德田t .益,t .小林和t . Kitamura(2004),“公司的混合励磁模型和预滤器HMM-based语音合成、“IEICE反式。正,系统。(日本版),J87-D-II卷,没有。8日,页。1565 - 1571。