关键字 |
语音合成、发音合成器、共振峰合成器,衔接合成器。 |
介绍 |
语音合成是人类语言的人工生产[1]。计算机系统用于这个目的被称为语音合成器,并可以通过软件或硬件实现。合成语言可以创建的连接块存储在数据库中记录的演讲。语音合成器的质量由其相似性判断人类的声音,和被理解的能力。语音合成系统的最重要的品质是自然和可理解性。自然输出听起来像人类语言,描述了密切而可理解的输出是理解。理想的语音合成器是自然的和可理解的,因此语音合成系统通常试图最大化两个特征。 |
语音合成方法通常分为三组: |
•发音合成,它试图模拟人类语言直接生产系统。 |
•共振峰合成,模型语音信号或传递函数的极点频率声道基于source-filter-model [2 - 4]。 |
•衔接合成,使用不同长度事先录音来自自然的演讲。 |
共振峰和衔接方法是最常用的方法。发音方法是复杂的高质量的实现。 |
声带发音合成涉及人类发音器官和模型与声门和嘴巴之间的一组区域功能。发音合成允许精确建模的瞬态由于突然的面积变化,而共振峰合成模型只光谱行为(O 'Saughnessy 1987)。 |
共振峰合成基于source-filter-model言论和最广泛使用的合成方法。使用两种基本结构,并行级联。两者结合可以用于更好的性能。共振峰合成还提供了无数的声音。三个共振峰通常需要产生理解演讲和五个共振峰产生高质量的语音。 |
语音合成 |
它认为与N移动网络无照节点移动的环境中根据一些随机移动模型。它还假设整个频谱分为数M重叠正交通道有不同的带宽。每个授权的访问通道是由固定的持续时间槽。槽时间被认为是由主系统广播。每个传感器节点,传送的信息之前,这是一个节点的信息,首先选择一个路径节点和频率频道复制消息。路径和通道选择后,传感器节点协商和握手的路径节点路径和声明所选频道频率。这种协调所需的通信被认为是通过一个固定长度的跳频序列(FHS)由K截然不同的授权渠道。在每一个时间段,每个节点连续跳在一个给定的FHS以发送和接收数据包的协调。协调包的目的是由一个节点与信息告知其路径的频率通道决定消息复制。 |
本节涵盖了一些语音合成的重要点。 |
答:发音语音合成器 |
发音合成语音的生产使用的模型声道,这直接或间接模拟语音发音器官的运动。它提供了一种手段获得演讲生产和研究语音的理解。出现在这样一个模型协同发音效果自然,原则上可以正确处理声门的源属性,声道之间的交互和声带,subglottal系统的贡献,鼻腔呼吸道和鼻窦腔内的影响。发音的合成通常包括两个独立的组件。声道的发音模型,分为许多小的部分和相应的横截面区域作为参数来表示声道特征。在声学模型中,每个横截面积近似电子模拟输电线路。模拟声道的运动,该地区功能必须随时间变化。每一个声音作出指定的目标配置和声道的运动是由一个单独的指定快速或慢速发音器官的运动。正确发音构造合成器能够自然繁殖的所有相关影响一代的摩擦音和爆破音,建模协同发音转换以及source-tract交互的方式类似于真正的演讲中发生的物理过程生产。 |
发音模型主要可以分为两种类型:参数区域模型和矢距离模型图1所示。参数模型描述区域面积函数的函数沿着道距离,受到一些限制。声道的面积通常是由一个连续函数如双曲线,抛物线或正弦曲线。矢距离模型描述语言器官运动矢平面和发音的位置参数指定代表声道形状。科克和》(1966)介绍了一个发音模型与参数分配到舌头的身体,舌尖,菌膜。后来这个模型修改控制发音器官的运动规则。 |
b .共振峰合成: |
基于规则的共振峰合成法是基于一组规则用于确定必要的参数使用共振峰合成所需的话语合成器(Allen et al . 1987年)。输入参数例如以下,在开放商意味着open-glottis时间总时间的比率持续时间(福尔摩斯et al . 1990年): |
•表达基本频率(F0) |
•表达激发开放商(OQ) |
•励磁(VO)的表达程度 |
•共振峰频率和振幅(F1…F3和A1…A3) |
•一个额外的低频谐振器的频率(FN) |
•强度低,高频区域(阿尔夫,AHF) |
一连串共振峰合成器(图2)由带通串联的谐振器和每个共振峰谐振器的输出输入下面的一个应用。只需要级联结构共振峰频率控制信息。级联结构的主要优势是,相对为元音共振峰振幅不需要单独控制(Allen et al . 1987年)。 |
图2所示的级联结构被发现更适合non-nasal表示声音和比平行结构,因为它需要更少的控制信息,它是那么容易实现。然而,由于级联模型生成摩擦音和破裂音破裂是一个问题。 |
一个平行的共振峰合成器图3由并联谐振器连接。有时使用额外的谐振器鼻音。激励信号应用于所有共振峰同时输出总结。共振峰的相邻输出谐振器必须总结反相,以避免不必要的0或并联谐振频率响应(O 'Saughnessy 1987)。平行结构使单独控制每个共振峰的带宽和增益,因此还需要更多的控制信息。 |
平行结构已经发现更好的鼻音,摩擦音,stop-consonants,但有些元音不能建模与并联共振峰合成器以及级联。 |
一直存在广泛争议的质量和适当的特征这两个结构。很容易看到好的结果只有一个基本方法难以实现一些一直在努力改善和结合这些基本模型。1980年丹尼斯Klatt (Klatt 1980)提出了一个更复杂的共振峰合成器合并两个级联的和额外的共鸣和并联谐振和并行合成器使鼻音化的声音,第六个共振峰对高频噪音,旁路路径给一个平坦的传递函数,和辐射特征。使用的系统相当复杂激励模型由39控制参数更新每5 ms。的质量Klatt共振峰合成器非常有前途,已经纳入数目前的TTS系统模型。 |
c .衔接合成 |
连接预录自然话语可能是最简单的方法产生理解和自然合成语音。然而,衔接合成器通常仅限于一个喇叭,一个声音,通常需要更多的内存容量比其他方法。 |
衔接合成最重要的方面之一是找到正确的单位长度。选择通常是长和短单位之间的权衡。单位较长的自然高,少点串联和良好的协同发音的控制实现,但需要单位和内存的数量增加。用较短的单位,需要更少的内存,但样本收集和标记过程变得更加困难和复杂。在当前的系统单位通常使用单词,音节,demisyllables,音素,diphones,有时甚至triphones。 |
词也许是最自然的单位书面文本和一些消息传递系统非常有限的词汇。连接词是相对容易执行和协同发音的影响在捕获一个字存储单元。然而,有一个很大的差异与孤立的单词和句子多屏画面等等使连续语音听起来很不自然(Allen et al . 1987年)。因为有成千上万的不同的单词和专有名词在每个语言,单词不是一个适合任何无限制的TTS系统的单位。 |
不同音节的数量在每个语言是大大小于的字数,但是单位大小的数据库通常是TTS系统仍然太大。例如,用英语大约有10000个音节。与文字,协同发音效果不包括在存储单元,所以使用音节作为基本单位不是很合理。也没有办法控制韵律轮廓的句子。目前,没有单词或音节建立完整的TTS系统的存在。当前合成系统大多是基于使用音素,diphones demisyllables或组合这些。 |
Demisyllables代表音节的初始和最终部分。demisyllables的一个优点是,只有约1000人需要构建10000英语音节多诺万(1996)。使用demisyllables,例如音素和diphones,而是需要大大减少拼接点。Demisyllables还考虑大多数转换然后也大量协同发音的影响,还包括大量的音位变体的差异由于最初的和最后的辅音连缀的分离。然而,内存需求仍然很高,但还过得去。音素和diphones相比,demisyllables在语言的确切数字无法定义。与纯粹的基于demisyllable系统所有可能的单词不能正常合成。这个问题是面临至少一些专有名词(赫斯1992年)。音素是语音合成中最常用的单位,因为他们是正常的语言表达的言论。基本单位的库存通常在40 - 50之间,这显然是最小的比其他单位(Allen et al . 1987年)。 Using phonemes gives maximum flexibility with the rule-based systems. However, some phones that do not have a steady-state target position, such as plosives, are difficult to synthesize. The articulation must also be formulated as rules. Phonemes are sometimes used as an input for speech synthesizer to drive for example diphone-based synthesizer. |
Diphones(或二价元素)定义扩展的中心点的稳态部分手机下面的一个中心点,所以他们包含相邻手机之间的转换。这意味着连接点会在最稳定状态区域的信号,这样可以减少连接的变形点。diphones的另一个优势是协同发音的效果不再需要制定规则。原则上,diphones的数量的平方音素(加上变体)的数量,但并不是所有音素的组合是必要的。例如,在芬兰的组合,如/海关/,/ sj /, / mt /, / nk /, / h p /在一个单词是不可能的。单位的数量通常从1500年到2000年,这就增加了内存需求,使数据收集和音素相比更加困难。然而,数据的数量仍然容许和其他优势,diphone是一个非常适合语音合成纸浆包的单位。diphones的数量可能减少反相对称过渡,比如从/ sa / /, /。 |
长节段单元,如triphones或tetraphones,很少使用。Triphones diphones一样,但包含一个音素稳态点之间(音素-音素音位一半一半)。换句话说,triphone是音素左右与一个特定的上下文。需要英语,超过10000辆(黄et al . 1997年)。 |
建设单位库存包括三个主要阶段(鸿et al . 1998年)。首先,自然语言必须被记录下来,以便所有使用单位(音素)在所有可能的情况下(变体)包括在内。之后,单位必须标记或分段播放的语音数据,最后,必须选择最合适的单位。收集样本自然语言通常是非常耗时的。然而,一些是这项工作可能会自动完成通过选择正确的输入文本分析阶段。规则来选择正确的样品连接的实现也必须非常仔细地做。 |
有几个问题衔接合成与其他方法相比。 |
•变形连接不连续的点,可以减少使用diphones或一些特殊的方法来平滑信号。 |
•内存需求通常是非常高的,特别是当使用长连接单元,如音节或单词。 |
•数据收集和标记的语音样本通常是费时的。理论上,应该包括在所有可能的变体材料,但权衡的质量和数量必须做出样品。 |
•可能解决的一些问题与下面描述的方法和使用的衔接方法增加是由于更好的电脑功能(多诺万1996)。 |
语音合成的应用 |
在这个方案中,每个节点与信息搜寻可能的路径节点复制的信息。因此,可能的路径节点的节点。使用NSS,每个节点在信息选择路径节点提供足够的端到端延时在检查它的传输工作。这里,它源于CSS措施允许CRNetworks节点决定哪些应该使用授权渠道。CSS的目的是最大化频谱利用率主要系统干扰最小。假设有M授权渠道不同的带宽值,y表示信道的带宽c。每个CR-Networks节点也认为定期M的一组授权渠道。Mi表示授权渠道的设置包括Ids由节点周期性地感觉到我假设频道c是由节点周期性地感觉到我在每个槽和c是空闲的时间间隔期间x频道称为信道空闲时间。这里,它使用产品的通道带宽y和通道空闲时间x, tc = xy,作为一个指标检查通道懒惰。此外,失败在初级用户认为引起的传感传输的主要用户之间的碰撞和CR-Networks节点。 |
增强communicators-individuals不能生产可以理解的演讲,而是使用合成语音生成的扩大和选择通信(AAC)的装置多年来依靠少量的商用合成的“声音”用于AAC设备。大多数情况下,这些设备已经使用基于规则的共振峰合成系统合成语音。因此,许多AAC设备依赖合成技术,是几十年的历史,明显减少理解和自然的声音。一些应用程序列出在本节中, |
盲人答:应用程序 |
最重要的和有用的语音合成中应用领域是为盲人阅读和传播艾滋病。合成语言之前,使用特定的有声书,书的内容读入录音磁带。也更容易获得信息从电脑讲话而不是使用特殊的幸福象征键盘,这是一个接口,用于阅读盲文字符。 |
第一个商业TTS应用程序可能是库兹韦尔盲人阅读机引入了Raymond Kurzweil在1970年代末。语音合成器将会非常有帮助,在未来视障人群常见的设备。当前系统大多是基于软件的,所以用扫描仪和OCR系统,很容易建立一个阅读机任何计算机环境的费用。不管如何快速阅读和传播艾滋病的发展,总有一些改进。 |
最关键因素在阅读机器是语音清晰度应该维持利率从不到一半至少三次正常速度(Portele et al . 1996年)。自然也是一个重要的特性,使得合成语音更容易接受。虽然自然是最重要的特性之一,它有时可能是可取的,演讲的听众能够识别来自机器(赫斯1992年),因此,合成语音应该听起来自然但“中性”。 |
当语音合成器的输出是第一次听,这听起来可理解的和愉快的。然而,再听期间,单一的点击或其他弱点系统可能出现非常烦人。这叫做一个恼人的影响,很难感知与任何短期评价方法,对于这样的情况下,从长期用户的反馈有时是非常必要的。 |
语音合成是目前用于读取www-pages与普通个人电脑或其他形式的媒体。信息服务也可以通过普通的电话接口实现与keypad-control text-tv相似。与现代计算机还可以添加新特性到阅读艾滋病。可以实现软件阅读标准检查形式或找到报纸的文章是如何构建的信息。然而,有时它可能是不可能找到正确的建设报纸文章如果是例如分成几页或有一个异常结构。 |
盲人也不能看到一个输入文本的长度与语音合成器开始听的时候,所以提前一个重要特征就是给一些信息的文本阅读。例如,合成器可能检查的文档和计算估计持续时间阅读和说话侦听器。大胆的信息或下划线的文本可以通过例如音调和响度的细微的变化。 |
b .耳聋和口头上有残疾的申请 |
先天性耳聋的人不能学会正确地说话,听力有困难的人通常说的困难。合成语言给出了耳聋和口头上的一个与人交流的机会不懂手语。说话头可以提高通信质量的情况更多,因为视觉信息是最重要的又聋又哑。也可以使用语音合成系统与通信电话线路(Klatt 1987)。 |
与键盘通常比正常慢得多交流演讲。加速的一个方法是使用预测输入系统总是显示最常见的词对于任何类型的片段,然后用户可以达到一个特殊的接受预测的关键。甚至个人提前写短语,如问候或敬礼,可以使用。 |
c .教育应用 |
合成语言也可以用在许多教育情况。电脑语音合成器可以教一天24小时,一年365天。它可以被编程为特殊任务如拼写和发音教学不同的语言。它也可以用于交互式教育应用程序。 |
尤其是在受损的人阅读(读写困难者),语音合成可能非常有用,因为尤其是一些孩子可能觉得自己很尴尬当他们需要帮助的老师(Klatt 1987)。它也几乎不可能没有口语的帮助学习读写。通过适当的计算机软件,这些问题是很容易的和廉价的无监督培训安排。 |
一个语音合成器与文字处理器也是一个有用的援助校对。许多用户更容易检测语法和听力比阅读时风格问题。正常的拼写错误也更容易探测。 |
d .申请电信和多媒体 |
语音合成中的最新应用领域的多媒体。合成语言已经使用了几十年在各种电话查询系统,但质量已经远好共同的客户。今天,质量已达到的水平正常客户采用日常使用。 |
电子邮件在最近几年已经变得很平常。然而,有时是不可能阅读这些电子邮件消息时例如国外。可能没有合适的计算机可用或存在一些安全问题。与合成语音电子邮件可能听通过普通的电话线。合成语言还可用于说出手机的短消息(sms)。 |
完全交互式多媒体应用程序的自动语音识别系统也是必要的。流利的演讲的自动识别还很远,但至少当前系统的质量很好,它可以用来给一些控制命令,如:是的/不,开/关,或好的/取消。 |
e .其他应用和未来的发展方向 |
原则上,语音合成可用于各种人机交互。例如,在预警和报警系统合成语言可用于提供更多准确的信息的现状。使用语音而不是警告灯或蜂群给一个机会到警告信号例如从一个不同的房间。语音合成器还可用于接收来自计算机的一些桌面信息,如打印机活动或接收电子邮件。 |
在未来,如果语音识别技术达到足够的水平,合成语言也可能用于语言翻译或其他通信系统,如用可视电话、视频会议、移动电话交谈。如果可以识别语音,转录成ASCII字符串,然后后回到演讲,大量的传输容量可能得救。移动电话通话可以增加可用性大大例如视力受损的用户或在很困难的情况下,甚至危险来达到视觉信息。很明显,听比读更危险的输出手机例如开车时。 |
在近几十年通信艾滋病已经从说计算器发展到现代三维视听应用程序。 |
结论 |
本文介绍了三种主要的语音合成方法。在共振峰和发音比衔接合成器合成可能提供更大的灵活性。衔接合成的兴起始于70年代,并在很大程度上已经成为实际的大规模电子存储已经成为廉价和鲁棒性。 |
合成语音可用于多个应用程序。传播艾滋病的发展从低质量说计算器到现代3 d应用程序,如头部特写。所使用的实现方法主要取决于应用程序。在某些情况下,如公告或预警系统,无限制的词汇是不必要的和最好的结果通常是通过一些简单的消息传递系统来实现。有了合适的实现一些基金还可以得救。另一方面,某些应用程序,如盲人阅读机器或邮箱读者需要无限的词汇和TTS系统是必要的。 |
数据乍一看 |
|
|
引用 |
- 拉宾,l·R。,and Schafer, R. W., “Digital Processing of Speech Signals”, Prentice- Hall, Englewood Cliffs, NJ, 1978.
- Klatt, d . H。,and Klatt, L. C., "Analysis, synthesis, and perception of voice quality variations among female and male talkers," The Journal of the Acoustical Society of America, vol. 87, pp. 820-857, 1990.
- Klatt, d . H。,"Review of text-tospeech conversion for English," Journal of the Acoustical Society of America, vol. 82, pp. 737-793, 1987.
- Klatt, d . H。,“Software for a Cascade/Parallel Formant Synthesiser”, The Journal of the Acoustical Society of America, 67(3), Mar. 1980, 971-995, 1980.
- 科克,c . H。,"A model of articulatory dynamics and control," Proc. IEEE, 64(4),1976, 452-460.
- Mermelstein P。,"Articulatory model for the study of speech production," J. Acoust. Soc. Am., 53(4), 1973, 1070-1082.
- Sondhi, m . m . Schroeter, J。,"A hybrid time-frequency domain articulatory speech synthesizer, " IEEE Trans. Acoust., Speech, and Signal Processing, 35(7), 1987, 955-967.
- 黑色,。,and Lenzo, K., “Limited domain synthesis,” in ICSLP2000, Beijing, China., 2000, vol. II, pp. 411–414.
- 实物地租,。,and Macon, M.,” Spectral voice conversion for text-to-speech synthesis”, In: Proc.ICASSP, Seattle,1998.
|