ISSN在线(2319 - 8753)打印(2347 - 6710)
Ranu武断的话1Navdeep考尔2 M。理工大学学生,信息技术、昌迪加尔工程学院,Landran,莫哈里(印度旁遮普1 信息技术学院、昌迪加尔工程学院Landran,莫哈里(,印度旁遮普1 |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术
在todaya年代世界,语音识别是非常重要的和受欢迎的。自动语音识别系统包括三个阶段:预处理、特征提取和识别。语音识别是一个过程,将口语词汇转换成文本。语音识别的研究主要使用三种不同的方法即追随者声学语音的方法,模式识别方法和人工智能方法。本文的主要目的是讨论语音识别和研究的各种技术隐藏的马尔可夫模型随机的方法来开发基于声音的,用户界面友好的软件系统。
关键字 |
||
自动语音识别(ASR),隐马尔可夫模型(HMM),特征提取。算法,随机方法 | ||
介绍 |
||
语音识别:定义和问题:语音识别的过程是将一个输入声信号(输入音频格式的口语词汇的形式)和识别各种单词包含在演讲。这些认可的话可以最终结果,可以作为命令和控制,或者他们可以作为进一步的语言处理的输入。简而言之,语音识别可以放在一起的能力将音频格式作为输入,然后生成文本格式作为输出。 | ||
语音识别[1][2]涉及不同的步骤: | ||
1。录音 | ||
2。词边界检测 | ||
3所示。特征提取[3] | ||
4所示。识别的语言模型[4] | ||
二世。语音识别的方法: |
||
语音识别过程处理语音变化和占学习特定的话语之间的关系和相应的词或词[5]。一直稳步推进领域的语音识别在最近一年有两个趋势[6]。首先是学术方法,第二个是务实的,包括技术,它提供了简单的低级与机器互动,与按钮和开关取代。第二种方法是有用的,前者主要为未来做出承诺。有三种方法可以语音识别[7][8][9]。 | ||
答:Acoustic-phonetic方法[10][11][12][13] | ||
b .人工智能方法 | ||
c .模式识别方法 | ||
Acoustic-phonetic方法:最早的语音识别方法是基于发现语音和提供适当的标签,这些声音。这是声学语音的基础的方法(Hemdal和休斯1967),它假定存在有限的,独特的语音单位(音素)口语,3这些单位是由一组广泛的特点体现在语音信号的声学特性。尽管语音的声学性质单位高度变量,两个扬声器和邻近的声音(所谓的公司清晰度效应),假定acoustic-phonetic方法,规则的可变性非常简单,很容易学会了一台机器。声学语音的方法的第一步是光谱分析的演讲结合特征检测光谱测量转换为一组特性描述的广泛的声学性质不同的语音单位。下一步是语音信号的分类和标记阶段划分为稳定声地区,其次是将一个或多个语音标签附加到每个分割区域,导致音素晶格特征的演讲。最后一步在这种方法试图确定一个有效的词(或字符串的话)语音标签序列分割产生的标签。在验证过程中,对任务(即语言限制。,the vocabulary, the syntax, and other semantic rules) are invoked in order to access the lexicon for word decoding based on the phoneme lattice. The acoustic phonetic approach has not been widely used in most commercial applications [14]. | ||
B人工智能方法(基于知识方法):[15]的人工智能方法是一种混合的声学语音方法和模式识别方法。在这方面,它利用声学语音的想法和概念和模式识别方法。基于知识的方法使用的信息关于语言,语音和声谱图。一些演讲人员开发识别系统,利用声学语音知识开发语音分类规则。虽然基于模板的方法非常有效的各种语音识别系统的设计;他们很少了解人类语言处理,从而使误差分析和以知识为基础的系统增强困难。另一方面,大量的语言和语音文学提供的见解和理解人类语言处理。在纯形式,知识工程设计包括直接和明确的公司专家演讲知识识别系统。这些知识通常是来源于谱图的仔细研究,结合使用规则或过程。纯知识工程也是出于兴趣和研究专家系统。 However, this approach had only limited success, largely due to the difficulty in quantifying expert knowledge. Another difficult problem is the integration of many levels of human knowledge phonetics, phonotactics, lexical access, syntax, semantics and pragmatics. Alternatively, combining independent and asynchronous knowledge sources optimally remains an unsolved problem. In more indirect forms, knowledge has also been used to guide the design of the models and algorithms of other techniques such as template matching and stochastic modeling. This form of knowledge application makes an important distinction between knowledge and algorithms Algorithms enable us to solve problems. Knowledge enable the algorithms to work better. This form of knowledge based system enhancement has contributed considerably to the design of all successful strategies reported. It plays an important role in the selection of a suitable input representation, the definition of units of speech, or the design of the recognition algorithm itself. | ||
c .模式识别方法:模式匹配方法(Itakura 1975;拉宾1989;拉宾和Juang 1993)包括两个基本步骤即模式训练和模式比较。这种方法的基本特征是,它使用一个数学框架制定和建立一致的演讲模式表示,对于可靠的模式比较,从一组标记训练样本通过一个正式的训练算法。模式的一次演讲中表示可以在语音模板的形式或统计模型(例如,一个隐藏的马尔科夫模型或嗯[21][22][23][24][25][26],可以应用于声音(小于一个字),一个字,或一个短语。pattern-comparison阶段的方法,两者之间的直接比较未知的演讲(语音识别),每个可能的模式在培训中学到的阶段,为了确定未知的善良的身份匹配的模式。模式匹配的方法已经成为语音识别的主要方法在过去六十年[14]。在这方面,存在两种方法即模板方法和随机方法。 | ||
1。基于模板的方法:基于模板的方法[15]语音识别提供了一个家庭领域先进的技术在过去的60年。底层的想法很简单。一组典型的演讲模式存储为参考模式代表候选人年代单词的词典。然后进行识别匹配一个未知的口语话语与每一个参考模板和选择最佳匹配模式的类别。通常模板构造整个单词。这样做的优势在于,错误由于分割或较小的听觉上更多的变量分类单位如音素是可以避免的。反过来,每个单词必须有它自己的全部参考模板;模板准备和匹配成为昂贵或不切实际的词汇量大小增加超出了几百字。模板方法的一个关键概念是派生的典型的语音帧序列模式(一个单词)通过一些平均过程,并依靠本地频谱的使用距离比较模式的措施。 Another key idea is to use some form of dynamic programming to temporarily align patterns to account for differences in speaking rates across talkers as well as across repetitions of the word by the same talker. | ||
2。随机的方法:随机建模[15]需要使用概率模型来处理不确定或不完整的信息。在语音识别中,不确定性和不完全性产生,还可以从许多别的来源;例如,可能被混淆的声音,议长可变性年代,语境效果,同音字。因此,随机模型特别适合语音识别方法。今天最流行的随机方法隐马尔科夫模型。一个隐藏的马尔可夫模型的特点是一个有限状态马尔可夫模型和一组输出分布。马尔可夫链模型的转换参数,颞可变性,而输出的参数分布模型、光谱可变性。这两种类型的variabilites语音识别的本质。基于模板的方法相比,隐马尔科夫模型更通用,具有坚实的数学基础。 A template based model is simply a continuous density HMM, with identity covariance matrices and a slope constrained topology. Although templates can be trained on fewer instances, they lack the probabilistic formulation of full HMMs and typically underperforms HMMs. Compared to knowledge based approaches; HMMs [27] [28] [29] [30] [31] [32] enable easy integration of knowledge sources into a compiled architecture. A negative side effect of this is that HMMs do not provide much insight on the recognition process. As a result, it is often difficult to analyze the errors of an HMM system in an attempt to improve its performance. Nevertheless, prudent incorporation of knowledge has significantly improved HMM based systems. | ||
三世。隐马尔可夫模型 |
||
嗯是在1980年代开发的关键技术之一,是隐藏的马尔可夫模型(HMM)方法[16][17][18]。这是一个双重随机过程作为一个潜在的随机过程,不可见(因此术语隐藏),但可以通过另一个随机过程,产生一个观察序列的观测。虽然HMM是众所周知的和理解在一些实验室(主要是IBM,国防分析研究所(IDA)和龙系统),直到广泛发表摘要的方法和理论在1980年代中期技术广泛应用于几乎所有世界上语音识别研究实验室。在1970年代早期,Lenny Baum普林斯顿大学的发明了一种数学方法识别演讲称为隐马尔科夫模型(HMM)。 | ||
嗯模式匹配策略最终被采用的每个大公司从事语音识别技术的商业化(SRT)。美国国防部资助许多实际研究项目在70年代,一些承包商,包括IBM、龙、AT&T、飞利浦等。在这些早期进展缓慢。嗯的技术已被广泛接受在今天?现代国家或艺术ASR系统主要有两个原因:其功能模型的非线性依赖演讲单元在相邻单元和一组功能强大的分析方法提供了估计模型参数[19][20] | ||
a嗯的定义和描述:隐马尔可夫模型(HMM)[33][34][35][36][37][38][39][40]是一个状态机。模型的状态表示为节点和表示为边缘的过渡。嗯是符号的区别,以防不唯一地标识状态。新状态是由符号和概率从当前状态转换到一个候选人的状态。[1]是一个教程嗯,展示了如何使用它。图1显示了如何在一个嗯。节点表示为圆形。O1和O5观测。观察O1送我们到州S1。aij定义Si和Sj之间的转移概率。 It can be observed that the states also have self transitions. If we are at state S1 and observation O2 is observed, we can either decide to go to state S2 or stay in state S1. The decision is made depending on the probability of observation at both the states and the transition probability. | ||
因此HMM模型的定义是: | ||
λ= (Q, O, A, B,π) | ||
问在哪里{气}(所有可能状态) | ||
O {vi}(所有可能的观察) | ||
就是aij {aij} = P (Xt + 1 = qj | Xt =气)(过渡概率) | ||
B {bi} bi (k) = P (Ot = vk | Xt = qit)(观察观察k状态的概率) | ||
π是我}{ππi = P (X0 =气)(初始状态概率) | ||
在时间t Xt表示状态 | ||
不表示在时间t的观察。 | ||
b嗯,语音识别:嗯可以在不同的标准分类: | ||
1。出现的离散值 | ||
——连续 | ||
2。维 | ||
——一维 | ||
——多维 | ||
3所示。概率密度函数 | ||
基于连续密度(高斯分布) | ||
——基于离散密度(向量量子化) | ||
虽然使用HMM识别,我们提供的事件模型,它返回一个数字。这个数字的概率模型会产生输出(出现)。在语音识别事件特征向量而不是符号。因此对于每一个事件,特征向量的一组实数。因此,我们需要对语音识别是一个连续的,多维嗯[39][40][41][42][43][44][45]。 | ||
c实现:嗯库,看了看: | ||
HTK:嗯工具——成熟嗯实现。但是使用的许可证不允许重新分配的代码。嗯的c++实现林德康教授:这个实现的问题是一个离散HMM的实现。GHMM: GHMM嗯的开源库。它同时支持离散和连续嗯。但是它没有支持多个维度。 | ||
连续嗯库,支持向量观测,在项目的实施。图书馆使用高斯概率分布函数。XML文件包含一个规范的嗯。样品有五个州一个向量大小的三根标记的嗯嗯文件表明,文件包含一个HMM模型。标签有两个属性状态和vector-size指示的状态数和向量大小分别观察的嗯。每个州由即将离任的边缘概率。这些边存储转换标记内的状态。每个标签都有目标状态id和过渡的可能性。一个国家也有一个或多个混合物。混合物由一个向量的均值和方差的矩阵,每个维度。这些均值和方差是用来计算概率发生。 The way of calculating the probability is discussed. | ||
四、使用嗯识别 |
||
认识一个词的单词使用现有的模型。录音机需要记录的声音当它检测到一个词的存在。这听起来记录然后通过特征向量提取器模型。上述模块的输出特性采取每10毫秒的列表。这个功能是传递给识别模块识别。所有单词的列表的系统培训和相应的模型给出了一个文件叫做模型在摘要中出现。所有模型相应的单词然后加载在内存中。特征向量生成的特征向量发生器模块作为观察识别模块的列表。代的观测模型,概率P (O |λ),计算每个模型的使用发现概率函数。这个词对应嗯[46][47][48][49][50],出的概率最高,高于阈值,被认为是口头的。 | ||
答:向前变量 | ||
变量是用于查找列表出现的概率嗯。与N模型,概率的观察,提出变量模型被定义为 | ||
在αt + 1是递归的定义为 | ||
在哪里 | ||
b .训练模型 | ||
列车指挥训练系统用于一个新单词。该命令需要至少三个参数: | ||
1。没有州HMM模型应该有N。 | ||
2。特征向量的大小。 | ||
3所示。一个或多个文件名每个包含一组训练。 | ||
生成一个初始嗯我们把N同样放置观察(特征向量)从第一个训练集。每一个都是用来训练一个单独的国家。训练后美国平均向量的大小D和方差矩阵大小D * D包含所有零。然后为每个剩余的观察,我们发现它和均值向量之间的欧几里得距离的状态。我们指定一个观察培训到最近的状态。国家分配连续跟踪观测发现过渡概率。 | ||
诉的结论 |
||
在本文中,我们讨论了语音识别的各种技术和研究隐马尔科夫模型(HMM)。我们观察到,嗯最好在所有建模技术。本研究进行了开发基于声音的,用户界面友好的软件系统。我们可以在各种应用程序,可以使用它以优势为真正的接口。我们将使用它为盲人和视障人士未来虚拟眼。 | ||
确认 |
||
作者仍然感谢Rajvinder辛格(H.O.D计算机科学工程、公司治理文化Landran莫哈里(),对他们有用的讨论和建议在准备技术论文。 | ||
数据乍一看 |
||
|
||
引用 |
||
|