ISSN在线(2278 - 8875)打印(2320 - 3765)
Kamaljit辛格Arora1Randhir辛格2辛格,张成泽阁下3和Parveen Lehana4 *
|
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程
语音信号处理是一个有趣的研究领域现今和它已经探索了各种应用程序。例如,语音合成是一种合成的信号处理方法完全相同的复制品输出语音与原始输入语音使用各种参数来源于记录的演讲。声音信号通常表示鸟类生活的一个重要组成部分,因为他们没有一个强烈的气味。这些信号帮助鸟类保护自己免受任何威胁或危险,需要寻找食物、水和住所。合成的电话有很多应用,如合成一个警报信号可以用来拯救这只鸟从任何危险或防止禽流感为鸟类提供一个合适的住处,等声音信号通常由一些特殊的声音给一个特定的沟通活动,称为鸟叫。由于鸟类发声的基本机制是几乎与人类相似,LPC模型可以用于合成鸟的叫声。摘要LPC模型的有效性已经被估计语音参数,成功地研究了视觉的谱图分析,主观评价、MOS得分等合成印度Ringneck和调用的非洲灰鹦鹉的物种
关键字 |
语音信号处理、语音合成、线性预测编码(LPC),声音调用,MOS得分。 |
介绍 |
语音合成是一种信号处理方法,仿真需要的合成语音使用不同模型的语音生成和合成。LPC模型是一个优秀的模型对语音合成降低比特率,减少误差,并提高准确度[1],[2]。 |
鸟叫声做出独特的作用在人类的生活。鸟叫声让我们接触到大自然的美丽。他们的电话突然使我们的头脑清醒,无压力。村庄和山脉,而是即使在大城市,人们可以认识和享受不同的调用和歌曲的鸟类物种特别是在清晨。鸟打电话给孩子们很多灵感,诗人,艺术家,作家,和音乐作曲家[3]、[4]。言语生成机制的基本构成鸟的物种几乎是类似于人类。我们知道,人类的语音是由小单元称为音素,鸟叫也由小单元组成的。人类使用声带声道的激励,但没有声带在鸟类。相反,他们有一个特别重要的器官叫鸣管及其位置可以自然地出现在十字路口的两个支气管或完全的气管和气管或支气管的[5]。的主要内部词类发声机制在鸟的物种包括肺、支气管,鸣管、气管、喉,嘴和嘴。 Syrinx is an important sound organ used for the production of calls in birds and it also gives information about the internal structure of different birds because different bird’s species have different anatomy or structure of syrinx, for e.g. parrots have mostly tracheal syrinx [6]. Different interiors of the syrinx can be used by different parrots to produce calls and songs, and sound production or mechanism is controlled by non homologous part of the brain. Tracheal syrinx is generally found in parrots. The parrot tracheal syrinx generally composed of syringeal muscles and a pair of lateral tympaniform membranes. The tracheal syrinx composition is shown in Fig.1. Parrots can also speak out complex vocalizations, it occurs due to the anatomical structure of the syrinx with the use of two pair of syringeal muscles. They can twist their tongues very easily. Parrots have two intrinsic syringeal muscles and labium is generally not present in them [7], [8]. Some of the researchers have already put a lot of effort on the calls of parrot species of birds. Irene M. Pepperberg experimentally found out excellent results for the vocal learning of grey parrots (Psittacus Erithacus) [9]. P. Skripa explained that cepstral transformation and self organizing maps (S.O.M) can be successfully and easily performed on parrot vocalizations or calls [10]. The objective of this research is to investigate the validity of LPC model, focusing on the synthesis of parrot calls by taking different observations, parameters, plots and spectrograms. This research paper is organised as follows: Section I gives the introduction about bird’s vocal communication and their sound production mechanism. Section II is helpful to understand the LPC model of speech in brief. Section III explains the categories of Parrot’s vocal calls. Section IV shows the research methodology i.e. a step by step process for the synthesis of vocal calls. The last section V comprised of results and conclusions and followed by the references. |
LPC模型的演讲 |
LPC模型有能力找到的参数合成语音的语音信号。这个模型已被用于语音编码应用程序和有助于减少传染率(低比特率语音编码)。[12]。 |
它可以用来产生高效的语音合成输出。它可以用来找出声道区域功能,基本频率‘佛’,带宽“B”,声音的强度和频率谱的极点和零点(例如,共振峰分析声音),但它主要是用来确定小组演讲代表声道参数的功能。LPC模型是分裂成两个部分,一个部分是分析部分,另一部分是合成部分。分析是用来分析语音信号和估计误差信号。演讲分析仪用于确定LPC的滤波器的系数,,表示(V)和无声(UV)部分为每个特定声音的语音帧[2],[13]。合成模型的一部分可以用于生产合成语音输出通过一个输入误差信号[14]。LPC的模型显示在图2。 |
语音信号和激励信号之间的关系可以写成 |
鹦鹉的物种及其调用 |
鹦鹉也叫Psittacines和可以产生复杂的声音。全世界大约有372种鹦鹉。他们可以扭转他们的舌头为了产生复杂的声音。有各种不同种类的鹦鹉取决于它们的大小,体重,年龄,电话,等[15]。最常见的鹦鹉在印度是印度Ringneck鹦鹉。其生物的名字是Psittacula krameri Manillensis。他们通常测量长度的平均大小为16英寸包括它们的羽毛。平均单翼环的脖子的长度是15 - 17.5厘米,大约20 - 30年的生活[16]。同时,非洲的非洲灰鹦鹉是著名的主要发现在刚果和能产生声音远远超过印度的鹦鹉。mimcry活动真的很令人印象深刻。 They are about 11-14 inches long and live a life of about 50 years [17]. It was found out that the calls of the parrots can be sub-divided into almost nine meaningful categories are explained as: |
一对二重唱:很多的鸟从鸣鸟鹦鹉的物种可以互相二重唱的自然交配。只有一些鹦鹉物种的二重唱。一些物种也可以发声在一个特定的地方,但他们大多叫顺序。可以观察到一对二重唱鸟类在一些种类的鹦鹉,情侣,桃红鹦鹉和亚马逊物种的数量等。 |
评论:一些鹦鹉的物种一直散漫的声音指出高度变异的语气和可以嵌套区域附近或在中午休息时间,也可以在后期。虎皮鹦鹉鹦鹉的雄性物种使用这些呼吁刺激雌性的生殖过程。 |
求电话:这叫主要是由年轻的鹦鹉或婴儿鹦鹉。这叫表明年轻的鹦鹉或鹦鹉宝宝饿了。这种类型的调用通常是在早上。 |
报警电话:一声大声的叫,鹦鹉感到威胁时使用这些调用。这叫还用于警告或其他鸟类免遭危险。 |
飞行前的电话:这个调用通常是产生在航班起飞时间或之前当鹦鹉开始在天空中飞翔。它主要是声音响亮而恶劣的飞行。飞行前的电话可以由橙色的锥尾鹦哥,硫罗塞拉和鹦鹉等。 |
求救信号:这个调用产生或由一个受伤或悲伤鹦鹉。 |
软电话联系雷竞技网页版:这叫使配合群成员的运动当他们搬在一组特定的植被。这叫听很低振幅,可以重复主要有或没有任何反应的其他成员群的物种。这些类型的调用的例子包括软buzz橙色下巴长尾小鹦鹉的声音,听不清的声音黄色的亚马逊女战士,切特的声音和尚鹦鹉的桃红鹦鹉和喋喋不休的声音,等等。 |
论争的抗议:听起来有些鸟产生某种形式的抗议期间航班。它表示一个高度激烈的抗议或高音调,主要由一只鹦鹉生气或自然干扰。 |
响亮的联系雷竞技网页版电话:几乎所有物种的鹦鹉可以产生特定类型的调用是在飞行过程中,可以相互转让一些其他物种飞行的鸟类和一些成员分开。它是用来创建一个直言不讳的一些特定的鸟类之间的联系。通常最响的电话。这些类型的调用的例子包括橙色下巴长尾小鹦鹉的叮当声,切特桃红鹦鹉,等。[18],[19],[20]。 |
方法 |
进行调查的方法论可以分成四个附带的材料记录,估计参数,视觉感知的言论使用声音和主观评价。相应的流程图见图3。 |
答:材料记录 |
调查是由印度Ringneck记录6个电话和非洲灰鹦鹉的物种在不同的地方使用一个高质量的麦克风索尼数字语音记录仪(ICD-UX513F)。这是一个4 gb的用户体验数字语音记录仪与可扩展的记忆功能和记录提供了高质量的声音[21]。听觉上的记录做了屏蔽和无噪声环境。的总记录电话是大约15 minute-duration。采样频率和用于量化的比特数是16 KHz和16位,分别。之后,电话是标记记录,处理和存储在wav格式。 |
b参数估计 |
LPC模型已被用于分析和合成记录的电话。自从LPC的合成语音质量参数表现出显著的影响。所以,记录分析呼吁言论不同的参数。时间框架的参数,如大小,女士(fr),窗口的大小(fs)女士和LPC (L)的顺序在不同的值,以调整手动执行高效的语音合成听完原始和合成调用的物种。时间框架的大小,在女士(fr)代表讲话的速度或速率输入样本进行了分析和输出语言是复制[22]。矩形窗口的大小,在女士(fs)代表帧大小为窗口的演讲是非常有用的。LPC模型(L)的顺序代表极数的滤波器。因此,语音合成进行了在一个固定范围的这些重要参数的值。 |
c .视觉分析谱图 |
为了使高效的合成,合成语音的频率、振幅和持续时间必须与原始记录类似的演讲。LPC模型的性能和有效性的合成记录调用使用语音谱图进行了分析。的声音(即原始记录和合成两个物种被观察到的呼吁做出视觉对比记录和通话质量保持视图合成不同的因素,如共振峰,带宽和振幅。光谱图是一个计算机生成的情节显示了在语音信号中不同频率呈现在每一个瞬间的时间。光谱图是一个有用的方法来识别声音信号的基础上他们的振幅,频率和持续时间。这些声音代表语音信号作为他们的绝对值的平方短时傅里叶变换(STFT)。光谱图可以画的三维图和时域频率。最初的时域和频率合成的情节与象征的改变语音信号的频率视图[23],[24]。 |
d .主观评价 |
主观评价进行了比较天然和合成语音的质量。主观评价方法,指导所有的听众听到的语音信号仔细评级或得分的所有加工或合成语音信号,从而认识到感知通话质量[25]。意见分数是一个方法来提供一个数值语音输出的质量。这种方法使用主观测试,固执己见的分数数学平均,得到一个指示的演讲质量[26],[27],[28]。它被定义为所有的个人得分的算术平均值1-Bad值介于1和5,两个非常烦人,3-Annoying, 4-Good 5-Excellent。为了评估合成工艺的整体精度,平均意见分(MOS)进行测试评估的相似性和自然语音合成质量找出LPC模型的综合性能。五听众给分数范围从1到5的物种在不同的叫声,比较天然和合成语音的质量。因为所有的调用被随机听所有的听众。所以,每个侦听器分四次电话,没有的平均值。次打电话听计算为每个侦听器。 The MOS scores and standard deviations for all the calls were also calculated. The listener must be good in hearing and capable of differentiating the synthesized signal from any distortion or background noise in comparison to natural signal. The listener must sit in a quiet room and the noise level of the room must be below 30 dB. The listening test was performed using high quality headphones (Sony MDR-XD200). |
结果和结论 |
调查确定LPC模型的有效性进行了分析和合成的电话的印度Ringneck和非洲灰鹦鹉物种。的调查,发现LPC参数影响合成语音的质量。当窗口大小“fs”变得更大于时间“fr”的大小,然后合成语言变得扭曲,视为讨厌的或不可接受的声音形式。因此,参数的调整值作为fs = 30 ms, fr = 20 ms和L = 21所以合成语言可接受。 |
演讲通过视觉感知的声音,它发现了频率或共振峰(频带),振幅和持续时间的记录和合成电话几乎是相似的。换句话说,它可以看出合成调用的谱图进行了分析,发现几乎类似于自然或记录声音呼吁这两个物种。谱图的绘制和分析不同的调用上述的物种。的声音(例如,一个印度的原始和合成调用Ringneck和非洲灰鹦鹉物种是图4和图5所示,分别。 |
意味着意见评分(MOS)打进了五个不同的听众表示为不同的调用从L1到L5 C1 C6, C7 C12的物种。MOS得分和标准差印度Ringneck和调用的非洲灰鹦鹉物种是显示在表我,及其对应的块地块图7和图7所示,分别在MOS得分由块(光黑色及其标准差由+酒吧上面块)。印度的总体平均MOS得分Ringneck和非洲灰鹦鹉物种计算为4.23和4.39,分别。从估计的参数,因此,视觉感知的言论通过声音,听力测试或主观评价、MOS得分和块情节,得出结论,认为合成声音形式的通话质量很好。所以,LPC模型可以有效地用于合成的印度Ringneck的电话和非洲灰鹦鹉物种。 |
引用 |
|