关键字 |
MFCC特征提取,特征选择,金融中间人 |
介绍 |
演讲是主要的人类之间的沟通方式也最自然、高效的交换信息的形式在人类之间在讲话。所以,只有逻辑,下一个自然语言语音识别技术的发展。语音识别的过程可以被定义为将语音信号转换为一个序列的单词通过算法实现为一个计算机程序。语音处理是一个令人兴奋的领域的信号处理。语音识别领域的目标是开发技术和系统开发的基于主要先进的语音输入机器静态造型的言论,今天自动语音识别任务中找到广泛应用要求人机界面,比如自动呼叫处理。[1]。自1960年代以来,计算机科学家一直在研究方法和手段,使计算机能够记录解释和理解人类语言。在这几十年里这是一个艰巨的任务。 |
即使是最基本的(抽样)声音数字化建设等问题在早期是一个巨大的挑战。直到1980年代之前,第一个系统到达可以破译演讲。当然这些早期的系统是非常有限的范围和权力。人类之间的交流主要是口语,因此人们自然期待演讲与计算机接口,可以说话和识别在母语演讲[2]。机器识别的语音包括生成一系列单词最佳匹配给定的语音信号。 |
有不同的方法用于自动语音识别特征提取。线性预测系数(LPC)技术不适合代表演讲,因为它假定信号固定在一个给定的帧,因此不准确分析局部事件。也无法捕捉到无声的和分析听起来正确的[3]。基于感知的线性预测分析(PLP)功能将语音信号转换成有意义的知觉方式通过一些心理声学的过程[4]。倒频谱方法用于单独的演讲到源和系统组件没有任何先验知识[5]。尽管许多语音识别系统获得令人满意的性能在清洁的环境中;识别精度大大降低,如果测试环境不同于训练环境[6]。这些环境的差异可能是由于添加剂噪声、信道失真,声学差异不同的扬声器,等等Mel频率Cepstral系数算法开发了提高精度和减少计算时间环境语音识别系统的鲁棒性。本文的模糊推理系统模型用于特征选择从MFCC提取的特征使用模糊逻辑工具箱。 |
语音识别的概述 |
答:语音识别的定义 |
语音识别(也被称为自动语音识别(ASR)或计算机语音识别)的过程是将语音信号转换成一系列单词,通过一个算法作为一个计算机程序实现 |
语音识别的基本模型 |
研究语音处理和沟通在很大程度上,是出于欲望年代建立力学模型来模拟人类的言语交际能力。语音是人类交流最自然的形式和语言处理一直是最令人兴奋的领域的信号处理。语音识别技术已经使计算机遵循人类语音指令和理解人类的语言。 |
语音识别领域的主要目标是开发技术和系统对语音输入机器。语言是人类沟通的主要方式。基于统计建模的言论的重大进展,自动语音识别系统今天发现广泛应用在需要人机接口的任务,比如自动呼叫处理在电话网络,基于和查询的信息系统,提供最新的旅游信息,股票报价,天气报告,数据输入,语音听写,获取信息:旅游、银行、命令、航空电子设备、汽车门户网站、语音转录、残疾人(盲人)超市、铁路预订等。语音识别技术越来越多的电话网络中使用自动化以及提高运营商服务[7]。因此,语音识别在大多数的应用中起着重要作用。语音识别的基本模型是图1所示。 |
|
特征提取 |
语音特征提取的分类问题是关于减少输入向量的维数,同时保持信号的鉴别力[7]。我们知道从基本形成说话人识别和验证的语音特征提取分类问题是关于减少输入向量的维数,同时保持信号的鉴别力[12]。我们知道从议长识别和验证系统的基本形成,培训和测试向量的数量分类问题所需的生长与给定的输入的维数所以我们需要语音信号的特征提取。以下是一些特征提取方法: |
Linear Predictive Coding (LPC) |
Perceptually Based Linear Predictive analysis(PLP) |
Cepstrum 方法 |
Mel-Frequency Cepstrum (MFCC) |
|
这些主要是MFCC,用于提取特征。特征提取图是图2所示。每个人的声音是不同的因此古兰经的声音被人背诵的人意味着使用MFCC我们可以计算出诗的声音MFCC由框架、窗口。DFT,梅尔·DFT滤波器组和逆。最后39系数提取Mel频率Cepstral系数法。 |
特征选择 |
特征选择可以被视为一个最基本的问题在机器学习领域。特征选择的主要目的是确定最小特征子集从问题域,同时保留适当的高精度代表原始功能。在现实问题,特征选择是一个必须由于大量的噪声,无关紧要的或误导的特性。通过消除这些因素,从数据中学习技术可以极大受益。模糊集和模糊化的过程提供了一种机制,通过这种机制实值特性可以有效地管理[11]。通过允许的值属于多个标签,不同程度的会员,可以建模中的模糊数据。特征选择阶段是由基于规则的模糊推理系统获得Mel频率系数。提取的39系数使用的模糊推理系统生成高斯隶属度函数。 |
的规则集的前提和结论之间的模糊关系,对于给定的含义是一个数据矩阵。在培训过程中,关系表面生成基于规则库和含义的方法。语音信号编码识别和评估他们的参数与表面上的每个模式的功能和会员的程度。模式的最终决定是根据输入参数和数据之间的不等式性质成分中包含关系的表面。去模糊化的过程的模式识别是基于极大值的均值(MOM)方法。通过模糊推理系统进行自适应网络。使用混合学习过程,金融中间人可以构造一个输入输出映射基于人类知识,模糊规则的形式,规定输入-输出数据对。 |
答:模糊if - then规则 |
模糊规则是由他们的祖先,这是相关的模糊概念。换句话说,模糊规则表达式的形式如果B, A和B是标签的模糊集(德,1965年)的特点是合适的隶属度函数。由于其简洁的形式,模糊规则通常是用来表示不精确的推理模式,发挥至关重要的作用在人类能力在不确定和不精确的环境做出决定。一种模糊规则只涉及到模糊集描述的前提是在高木涉和Sugeno (1983)。这种模糊规则的一个例子,描述一个简单的事实是,如果X更消极,那么Y是负的 |
更消极的前提部分作为一个语言标签以一个适当的隶属函数。然而,随之而来的是non-fuzzy方程描述的输入变量x如果随之而来的是一个输入变量的线性函数,模糊推理系统编目顺序。如果结果是一个常数,系统分为零阶。 |
b .模糊推理系统 |
模糊推理系统也被称为模糊规则系统。基本上,一个模糊推理系统是由四个功能模块如图3所示 |
A Knowledge base, 包含 模糊 规则 数目 和 database, 定义 中 使用 的 隶属 度 函数 模糊 rules. |
An Inference engine, rules. 执行 推理 操作 |
A Fuzzification interface, 脆 的 输入 转换 成 度 的 语言 values. 的 匹配 |
A Defuzzification interface, , 将 模糊 推理 的 结果 转换 成 脆 output. |
|
除了功能块组成一个模糊推理系统,另外两块是必要的,在输入和输出的另一个活动。第一个(输入块)允许将变量大小缩放以这样一种方式,他们在区间[0,1]或[1](归一化)。第二个(输出块)执行相反的操作(堕落)。基本的模糊规则和模糊推理系统是众所周知的主题,和进一步的信息可以在德(1965),冢本李(1979)和(1990)[16]。 |
本文的另一个目的是提供一个最佳的方式确定的模糊if - then规则的一部分,在学习阶段结构。不同类型的顺向部分(如单例,钟形的隶属度函数,或输入变量的线性组合)已经被用于模糊系统[15]。这是田中Sugeno和[13]指出,大量的规则是必要的,当代表一个复杂的系统的行为基于Mamdani普通模糊模型的方法。 |
此外,他们报告说,Takagi-Sugeno-Kang(啧啧)模型可以表示一个复杂的系统的一些规则。Takagi-Sugeno-Kang(啧啧)FIS使用本文,因为TSK模型是适合从一个给定的输入-输出数据集生成模糊规则以数据驱动方式[14]。然而,尽管TSK模型所需的规则较少,所使用的术语方面的相当可观的一部分multiinput /多输出系统或系统高维输入或输出空间。 |
性能 |
语音识别系统的性能通常是指定的精度和速度。准确性可能测量的性能精度通常认为与词错误率(回答),而速度是实时测量的因素。精度的其他措施包括单一词错误率(sw)和命令成功率(CSR)。 |
词错误率是一种常见的度量的语音识别、机器翻译系统的性能。测量性能的一般困难在于识别词序列可以从参考词序列有不同的长度(所谓正确的)(8、9)。回答来自Levenshtein距离,工作在单词层面而不是音素水平。可以解决这个问题,首先调整识别词序列与参考(口语)使用动态字符串序列对齐。词错误率可以计算为: |
|
结果 |
|
|
图4显示了手机清洁输入语音信号特征提取阶段。图5显示了Mel频率Cepstral系数(MFCC)输出应用输入语音信号。梅尔·过滤器银行实施第一,然后MFCC的输出。 |
|
|
创建两个模糊推理系统模型使用模糊逻辑工具箱上面输入和输出范围。从执行结果可以看出Sugeno模型提高了平滑度从17.7%到45.3%相比mamdani模型。自从Sugeno模型中的每个规则的输出,通过加权平均获得的整体输出,这样就避免了费时的过程中需要的去模糊化Mamdani模型。因此,Sugeno模糊系统提供最佳特征选择比mamdani模糊系统 |
结论和未来的工作 |
人类和计算机之间的交互,这类似于人类之间的互动是最重要和最困难的问题之一的人工智能。所以必须提高识别系统的性能以获得更高的效率。因此任何一个特征选择可以应用于从高维空间选择最优特征。基于模糊逻辑的特征选择算法选择最相关的功能在所有功能以增加自动语音识别系统的性能。从评价结果可以看出Sugeno模型提高了平滑度从17.7%到45.3%相比mamdani模型。未来的工作是实现基于去噪的自动语音识别的特征选择。这提供了神经网络与模糊功能,提高了识别率。 |
承认 |
作者要感谢博士。Valarmathy Mrs.M。Kalamani在实施这个项目的支持。 |
引用 |
- R。Klevansand R罗德曼¢一个¢语音识别,Artech房子,波士顿、伦敦1997年,Samudravijaya k .演讲和说话人识别教程TIFR孟买400005。
- d . j . Mashao y后藤和h·f·西尔弗曼,一个¢LPC / DFT分析HMM-basedα位识别器的特性,一个¢IEEE SignalProcessing列托人,3卷,页。103 A¢106,1996年4月。
- Hermansky, H。,1990年。一个¢感知语音线性预测(PLP)分析。美国声学学会学报,1738一个¢1752。
- 菲利普·n·加纳一个¢Cepstral正常化和自动语音信噪比谱recognitionA¢,SpeechCommunication日报》,2011年5月。
- x邵和b·米尔纳¢干净语音重建从嘈杂的mel-frequency cepstral系数使用正弦模型,一个¢Proc.ICASSP,2003年,我卷,页。704 A¢707。
- SantoshK。Gaikwad“复习语音识别技术”,国际期刊《计算机应用(0975 A¢8887)Volume10A¢3号,2010年11月。
- 一个。Biem和S。片瞳,一个¢Cepstrum-based滤波器组设计使用区别的特征提取各级培训,一个¢Proc IEEEInt。相依声学、演讲和信号处理,1997年,页1503¢1506。
- 崔Chulhee Lee Donghoon Hyun Euisun Jinwook, Chungyong李,一个¢优化特征提取为语音识别¢,IEEE反式。音频,演讲,朗。过程。,Vol. 11, No. 1, pp.80, January 2003.
- h李,L。R,拉宾,R . Pieraccini J.G. Wilpon,声学建模大词汇量语音识别,计算机语言和语言,4:1237 - 1265年,1990年1月。
- 洛杉矶枝。模糊集。信息和控制,8卷,第338¢353。1965年。
- J.M.孟德尔,¢模糊逻辑系统工程:一个教程,一个¢IEEE的诉讼,卷。83(3),页。345 A¢377,1995
- m . Sugeno和k .田中,¢连续识别模糊建模应用程序预测的一个复杂的系统,一个¢模糊SetsSyst。,42卷,不。3,页315¢334,1991。
- 高木涉和t . m . Sugeno¢模糊识别的系统和应用程序建模和控制,一个¢IEEE反式。系统。,Man, Cybern.vol. 15, pp. 116âÂÂ132, Jan. 1985.
- c·c·李,一个¢模糊逻辑控制系统:模糊逻辑控制器部分二世,一个¢IEEE反式。系统。,Man, Cybern, vol. 20, pp. 419âÂÂ435,Mar./Apr.1990.
- 冢本,Y。,1979年。一个方法的模糊推理方法。模糊集合理论的发展和应用,页137 A¢149。
- 拉宾等。数字语音信号的处理。普伦蒂斯霍尔。
- 拉宾和Juang。语音识别的基础。普伦蒂斯霍尔。
|