所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

持续时间与递归神经网络建模为泰卢固语语言

来对比拉梅什,评定P.N.Girija
教授,计算机学院&信息科学年代,大学海德拉巴,海得拉巴,印度安得拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

在这篇文章中,一个新颖的音节时间建模方法提出了泰卢固语演讲。音节的持续时间是影响音节位置和上下文的变化。多个音节的语言特性在不同水平位置和上下文特征用于从文本。持续时间值的音节从语音分析软件中提取PRAAT。一个音节预计时间递归神经网络(RNN)算法。一个小演讲数据库被认为是初步预测音节时间处理提出RNN的算法。实验对不同的特性。

关键字

持续时间、语音合成、复发性神经网络、音节、词性,位置和上下文特征

介绍

近年来,大部分的演讲人员使用语音合成单元选择程序。首先输入文本规范化通过扩大缩写,缩写、数字和所有非标准词。最近的研究表明,使用数据驱动方法神经网络或统计方法来产生韵律信息和汤姆在自动语音合成器实现自然和流畅性[1]。由于持续时间是一个重要的韵律特征,提出了预测时间。
人类大脑[2]包含三种类型的记忆作为长期,短期和中期的研究[3,4]和[5]。它已经表明,RNNs使用短期记忆。RNN单元之间的连接形式的定向循环使它表现出动态的时间行为。一个或多个反馈连接是用来传递一个神经元的输出在一定层前一层(s)。由于周期的存在,它不是可以分为层。RNN更优越的学习很多行为/序列处理任务/算法/项目相比,传统的机器学习方法。
前馈神经网络是用来预测时间泰卢固语[6]。递归神经网络(RNN)是用来预测为波斯韵律信息,中文和普通话[7]。反复输入数据也有助于平滑输出参数跟踪[8]。RNNs本质上实现短期记忆通过允许一个神经元的输出影响其输入其他神经元直接或间接通过其影响[9]。很明显,认知过程和/或更实际应用需要更高层次的架构。这是一个坚实的理由递归神经网络即使前馈网络调查显示良好的结果在许多实际应用在不同的领域,从分类、时间序列预测。在目前的工作因此提出预测时间的音节泰卢固语RNN方法由于RNN学习序列处理任务比简单的前馈神经网络。RNN的语言特征作为输入节点自动学习时间规则的音节的音节,可以预测时间输出节点。

相关工作

神经网络是非常有用的应用程序模式识别、数据分类等通过学习过程。RNN被应用于各种领域,包括模式识别、分类、图像处理,组合优化和通信系统[10]。应该考虑一个合适的算法建模基本单位的持续时间。RNNs有能力结合上下文或时间依赖的自然的方式,也可以包括循环连接的神经元。RNNs保存历史之前的一些州通过他们的经常性联系,因此被广泛应用于处理时间模式[11]。复发性网络是建立在这样一种方式,有些神经元的输出反馈在前面相同的神经元或神经元层[12]。这有助于在处理前后协同发音效果。
RNNs有一种内在的动态内存和在给定的即时反映当前的输入输出以及之前的输入和输出逐渐熄灭。这表明不同的地方可塑性机制的协同组合如何塑造全球的结构和动力学RNNs有意义的和自适应方法[13]。多层感知器(MLP)和RNN受雇为当地专家歧视时不变和时变音素,[14]。RNN的言论可以学习时态关系数据和建模时间音素的能力。
RNN可以训练把未知输入数据来学习单词[15]。基于静态神经网络识别器网络,如延时、和动态网络像RNN[16]或时间延迟神经网络(TDNN)[17],使用激活函数的参数表示。的标签确定音位在低水平分类使用RNN [18]。延时和RNN受雇为当地专家歧视定常和timevariant音素,分别。RNN展品更好的性能在非线性信道均衡问题[19]。为了解决这个困难,一个特定的解决方案已经建议输出误差逆向传播通过异构配置。
RNN是一个强大的联结主义模型,可以应用于许多具有挑战性的顺序问题,包括语言和讲话中自然出现的问题[20]。然而,RNNs很难训练问题,长期依赖关系,有必要记住事件对许多时间步骤之前使用它们。然而Temporal-Kernel递归神经网络(TKRNN)是非常有效的长期依赖。这是这项工作的范畴,因而不是这里讨论。
可以看出几种类型的功能用于建模时间和更多的相关工作简要解释。它使用一个简单的三层RNN学习输入韵律特征之间的关系,与输入音节边界和输出字边界信息[21]。他们的实验结果表明,提出的递归模糊神经网络(RFNN)可以生成适当的韵律特征包括球场,球场形状,最大能量水平,音节持续时间和停顿时间。通常是一个复杂的结构,包括语言表示的信息序列,这个词词性(POS)标签,韵律相信息,基频、能源和暂停。RNN专家的类型的混合模型提供了健壮性改变学习的特性,但它缺乏的能力,提取公共模式包含在序列,因为当地的独立性表示[22]。当地表示构造成正交的单位,而全球表示构造成内部单位使用I / O单元之间的连接权重和内部单位。文中所述方法处理语音数据[23]。
神经网络的输入由一组特征对应于语音,位置和上下文信息从文本中提取[24]。位置和上下文特征的相对重要性分别检查。提出了一种两阶段持续时间模型改善持续时间的准确性。一个多层次的韵律模型估计的基础上韵律特征被认为是[25]。不同的语言单位来表示不同尺度的韵律变化(本地和全球)每一层用于基于音节的时间建模。本地和全球变化与语音相关联属性的水平(协同发音、音节结构、增强)和中间变化一组单位比音节和+ / -语言定义良好(重音的组、interpausal组、韵律组intonational短语,时期,语言建设、话语序列,…)和相关的+ / -语言因素:生理(f0赤纬)模式(问题,…),句法(韵律对比相关的一些特定的语法序列),语义(信息结构)和话语。持续时间,电话[26]或似乎被认为是(27、28)表示。
一个基于音节的持续时间模型提出了基于多层次的上下文相关的分析[30]。基于建模与模型durational特性在一个语言单位(音素、音节),该方法显示了几个优点像区分几个语言单位durational的表示特性变化使得显式叠加的韵律形式共同观察到在给定的单元,2)每个韵律层面(语音速率、音节剩余持续时间、…)可以建模和控制相互独立和3)估计一组独立影响每一语言单位的语言特征。在这个实验中低级语言特征如位置特性(位置给定单元在更高级别的单位),重量特性(给定语言的观察单位在更高级别的单位)和语音功能(音节结构和突出)。
结合约束和统计分析的多字收购的收购是概述了[29]。在屈折词形式语言编码丰富的morpho-syntactic信息限制可能的语法结构。这种类型的信息是有用的在提取通过M / C语言知识学习和统计学习方法不通过解析。方法还利用一些基本语言知识的启发式方法使用语言特定的字符频率+语言特定的列表功能词和词的末梢[30]。常见的所有这些方法的粒度语言识别最多一个句子或一个词。

语音数据库

在当前工作Tv9男性演讲者的演讲记录。因为泰卢固语在本质上是音节的音节的预计时间。言语生成以及对泰卢固语可以被视为音节单位。也音节单位捕获一些协同发音的影响。Syllable-like单位认为V,简历,闭路,CCVC和CVCC, C是一个辅音和V是一个元音。数据库包括Tv9新闻泰卢固语语言中的数据。音节形式的简历,CVC, CCVC CVCC就是从文本中提取出来的。语音信号采样在16千赫采样率和编码为16位数据。演讲话语使用WX手动转录成文字符号。泰卢固语的字符集56。 These can be represented as V, CV and CCV forms. The TV9 speech is organized as syllables, words and phrases.

持续时间建模

在连续语音中,不同因素影响的持续时间的基本单位。他们分为语音、位置和语境因素。音节时间可能受到音节中的元音礼物的类别,类别的辅音与元音相关联(s)和元音的位置等等。持续时间变化发生基于基本单元的位置像初始位置,最终位置,短语边界,句子结束位置等等类似的语境变化前后发生的影响由于单位在本单位。
RNN架构[24]由三层像输入层、隐藏层和输出层。在输入层25输入节点。隐层节点的输出输入节点传递给由40个隐藏节点和输出层1输出节点连接。激活函数tan h用于隐藏层。使用最广泛的训练算法RNN是所谓的误差反向传播。算法的目的是调整权重的输出单位的隐层单元和反过来单位隐藏层中输入单位以减少网络的输出之间的差异及其目标,期望的输出。在反向传播这是通过传播错误(即。,the network's output for a given training vector (t-o) where t is a target vector and o is an output vector which is subtracted from the target, or vice versa back to the network in such a way that the weights are gradually adjusted to optimal values. In this work the objective is to adjust the weights of the network to minimize the mean squared error of each syllable’s duration. This process is not deterministic and the networks do not always converge to the same solution.
在这个工作语言功能,如词汇(身份音节,音节核),使用位置和上下文特征。音节的位置在一个短语,词,音节身份,上下文的音节和音节核被认为是作为输入特性RNN [12]。细节的特性在不同层次上考虑RNN如表1所示。
实验在两个阶段培训和测试两组数据作为训练集和测试集。最初在训练阶段的持续时间手动音节被发现。给出了每一个音节从文本中提取的特性作为输入向量。手动测量给出的相应的音节时间作为输出RNN的模型,这些模型训练100时代。不同组合的训练误差估计输入特性,如图2所示,图3和图4所示。在测试阶段,预计音节持续时间与对应的音节从测试数据。之间的区别实际持续时间和预计持续时间和持续时间偏差估计。持续时间的偏差不同音节类别表2所示。

结果

RNN的输出不同的输入特性如图1所示,图2和图3所示。在图1中,结果表明,训练误差减小为零当RNN与词汇训练,位置和文本输入功能。在图2中,训练误差不达到零,RNN训练词汇和位置输入功能。这表明这些输入特性并不足以预测正确时间。在图3中,训练误差达到大约接近零词汇和语境输入参数。也开始慢慢训练误差减少训练和词汇错误相比,位置和上下文特征。从这些实验很明显,词汇的结合,位置和上下文的输入特性有助于更好的持续时间预测。

结论和未来的工作

递归神经网络用于预测音节持续时间。持续时间值预测基于语音、音节的位置参数和上下文信息短语和单词的水平。可以看出时间值预测相似值预测[2,3]。神经网络的性能评估和错误值通过使用不同的组合输入功能。这些误差值预计通过使用实际持续时间和预计持续时间之间的差异。的值如表2所示,可以看出时间的偏差是表示声音,减少订单的鼻音<牙科<唇腭,停止<摩擦音,肺泡<膜的,液体<破擦音和无声的声音。在未来,可以提高性能通过考虑口音和突出的音节作为额外的特征向量。还提出了研究考虑更多附加功能作为输入功能。在RNN而不是把所有的输入特性在单层作为输入,增加一个分层的方式基本单元的大小是试过了。

表乍一看

表的图标 表的图标
表1 表2

数据乍一看

图1 图2 图3
图1 图2 图3

引用