所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

影响LPC合成基于叫声的印度Ringneck和非洲灰鹦鹉的物种

Kamaljit辛格Arora1Randhir辛格2辛格,张成泽阁下3和Parveen Lehana4 *
  1. M。科技(ECE)的学生,电子与通信工程系,SSCET,印度旁遮普
  2. 助理教授及头、电子与通信工程系、SSCET,印度旁遮普
  3. M。菲尔的学生,物理系和电子,查谟大学查谟,J&K、印度
  4. 物理系副教授和电子产品部门,查谟大学查谟,J&K、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

语音信号处理是一个有趣的研究领域现今和它已经探索了各种应用程序。例如,语音合成是一种合成的信号处理方法完全相同的复制品输出语音与原始输入语音使用各种参数来源于记录的演讲。声音信号通常表示鸟类生活的一个重要组成部分,因为他们没有一个强烈的气味。这些信号帮助鸟类保护自己免受任何威胁或危险,需要寻找食物、水和住所。合成的电话有很多应用,如合成一个警报信号可以用来拯救这只鸟从任何危险或防止禽流感为鸟类提供一个合适的住处,等声音信号通常由一些特殊的声音给一个特定的沟通活动,称为鸟叫。由于鸟类发声的基本机制是几乎与人类相似,LPC模型可以用于合成鸟的叫声。摘要LPC模型的有效性已经被估计语音参数,成功地研究了视觉的谱图分析,主观评价、MOS得分等合成印度Ringneck和调用的非洲灰鹦鹉的物种

关键字

语音信号处理、语音合成、线性预测编码(LPC),声音调用,MOS得分。

介绍

语音合成是一种信号处理方法,仿真需要的合成语音使用不同模型的语音生成和合成。LPC模型是一个优秀的模型对语音合成降低比特率,减少误差,并提高准确度[1],[2]。
鸟叫声做出独特的作用在人类的生活。鸟叫声让我们接触到大自然的美丽。他们的电话突然使我们的头脑清醒,无压力。村庄和山脉,而是即使在大城市,人们可以认识和享受不同的调用和歌曲的鸟类物种特别是在清晨。鸟打电话给孩子们很多灵感,诗人,艺术家,作家,和音乐作曲家[3]、[4]。言语生成机制的基本构成鸟的物种几乎是类似于人类。我们知道,人类的语音是由小单元称为音素,鸟叫也由小单元组成的。人类使用声带声道的激励,但没有声带在鸟类。相反,他们有一个特别重要的器官叫鸣管及其位置可以自然地出现在十字路口的两个支气管或完全的气管和气管或支气管的[5]。的主要内部词类发声机制在鸟的物种包括肺、支气管,鸣管、气管、喉,嘴和嘴。 Syrinx is an important sound organ used for the production of calls in birds and it also gives information about the internal structure of different birds because different bird’s species have different anatomy or structure of syrinx, for e.g. parrots have mostly tracheal syrinx [6]. Different interiors of the syrinx can be used by different parrots to produce calls and songs, and sound production or mechanism is controlled by non homologous part of the brain. Tracheal syrinx is generally found in parrots. The parrot tracheal syrinx generally composed of syringeal muscles and a pair of lateral tympaniform membranes. The tracheal syrinx composition is shown in Fig.1. Parrots can also speak out complex vocalizations, it occurs due to the anatomical structure of the syrinx with the use of two pair of syringeal muscles. They can twist their tongues very easily. Parrots have two intrinsic syringeal muscles and labium is generally not present in them [7], [8]. Some of the researchers have already put a lot of effort on the calls of parrot species of birds. Irene M. Pepperberg experimentally found out excellent results for the vocal learning of grey parrots (Psittacus Erithacus) [9]. P. Skripa explained that cepstral transformation and self organizing maps (S.O.M) can be successfully and easily performed on parrot vocalizations or calls [10]. The objective of this research is to investigate the validity of LPC model, focusing on the synthesis of parrot calls by taking different observations, parameters, plots and spectrograms. This research paper is organised as follows: Section I gives the introduction about bird’s vocal communication and their sound production mechanism. Section II is helpful to understand the LPC model of speech in brief. Section III explains the categories of Parrot’s vocal calls. Section IV shows the research methodology i.e. a step by step process for the synthesis of vocal calls. The last section V comprised of results and conclusions and followed by the references.
图像

LPC模型的演讲

LPC模型有能力找到的参数合成语音的语音信号。这个模型已被用于语音编码应用程序和有助于减少传染率(低比特率语音编码)。[12]。
图像
它可以用来产生高效的语音合成输出。它可以用来找出声道区域功能,基本频率‘佛’,带宽“B”,声音的强度和频率谱的极点和零点(例如,共振峰分析声音),但它主要是用来确定小组演讲代表声道参数的功能。LPC模型是分裂成两个部分,一个部分是分析部分,另一部分是合成部分。分析是用来分析语音信号和估计误差信号。演讲分析仪用于确定LPC的滤波器的系数,,表示(V)和无声(UV)部分为每个特定声音的语音帧[2],[13]。合成模型的一部分可以用于生产合成语音输出通过一个输入误差信号[14]。LPC的模型显示在图2。
语音信号和激励信号之间的关系可以写成
图像

鹦鹉的物种及其调用

鹦鹉也叫Psittacines和可以产生复杂的声音。全世界大约有372种鹦鹉。他们可以扭转他们的舌头为了产生复杂的声音。有各种不同种类的鹦鹉取决于它们的大小,体重,年龄,电话,等[15]。最常见的鹦鹉在印度是印度Ringneck鹦鹉。其生物的名字是Psittacula krameri Manillensis。他们通常测量长度的平均大小为16英寸包括它们的羽毛。平均单翼环的脖子的长度是15 - 17.5厘米,大约20 - 30年的生活[16]。同时,非洲的非洲灰鹦鹉是著名的主要发现在刚果和能产生声音远远超过印度的鹦鹉。mimcry活动真的很令人印象深刻。 They are about 11-14 inches long and live a life of about 50 years [17]. It was found out that the calls of the parrots can be sub-divided into almost nine meaningful categories are explained as:
一对二重唱:很多的鸟从鸣鸟鹦鹉的物种可以互相二重唱的自然交配。只有一些鹦鹉物种的二重唱。一些物种也可以发声在一个特定的地方,但他们大多叫顺序。可以观察到一对二重唱鸟类在一些种类的鹦鹉,情侣,桃红鹦鹉和亚马逊物种的数量等。
评论:一些鹦鹉的物种一直散漫的声音指出高度变异的语气和可以嵌套区域附近或在中午休息时间,也可以在后期。虎皮鹦鹉鹦鹉的雄性物种使用这些呼吁刺激雌性的生殖过程。
求电话:这叫主要是由年轻的鹦鹉或婴儿鹦鹉。这叫表明年轻的鹦鹉或鹦鹉宝宝饿了。这种类型的调用通常是在早上。
报警电话:一声大声的叫,鹦鹉感到威胁时使用这些调用。这叫还用于警告或其他鸟类免遭危险。
飞行前的电话:这个调用通常是产生在航班起飞时间或之前当鹦鹉开始在天空中飞翔。它主要是声音响亮而恶劣的飞行。飞行前的电话可以由橙色的锥尾鹦哥,硫罗塞拉和鹦鹉等。
求救信号:这个调用产生或由一个受伤或悲伤鹦鹉。
软电话联系雷竞技网页版:这叫使配合群成员的运动当他们搬在一组特定的植被。这叫听很低振幅,可以重复主要有或没有任何反应的其他成员群的物种。这些类型的调用的例子包括软buzz橙色下巴长尾小鹦鹉的声音,听不清的声音黄色的亚马逊女战士,切特的声音和尚鹦鹉的桃红鹦鹉和喋喋不休的声音,等等。
论争的抗议:听起来有些鸟产生某种形式的抗议期间航班。它表示一个高度激烈的抗议或高音调,主要由一只鹦鹉生气或自然干扰。
响亮的联系雷竞技网页版电话:几乎所有物种的鹦鹉可以产生特定类型的调用是在飞行过程中,可以相互转让一些其他物种飞行的鸟类和一些成员分开。它是用来创建一个直言不讳的一些特定的鸟类之间的联系。通常最响的电话。这些类型的调用的例子包括橙色下巴长尾小鹦鹉的叮当声,切特桃红鹦鹉,等。[18],[19],[20]。

方法

进行调查的方法论可以分成四个附带的材料记录,估计参数,视觉感知的言论使用声音和主观评价。相应的流程图见图3。
图像
答:材料记录
调查是由印度Ringneck记录6个电话和非洲灰鹦鹉的物种在不同的地方使用一个高质量的麦克风索尼数字语音记录仪(ICD-UX513F)。这是一个4 gb的用户体验数字语音记录仪与可扩展的记忆功能和记录提供了高质量的声音[21]。听觉上的记录做了屏蔽和无噪声环境。的总记录电话是大约15 minute-duration。采样频率和用于量化的比特数是16 KHz和16位,分别。之后,电话是标记记录,处理和存储在wav格式。
b参数估计
LPC模型已被用于分析和合成记录的电话。自从LPC的合成语音质量参数表现出显著的影响。所以,记录分析呼吁言论不同的参数。时间框架的参数,如大小,女士(fr),窗口的大小(fs)女士和LPC (L)的顺序在不同的值,以调整手动执行高效的语音合成听完原始和合成调用的物种。时间框架的大小,在女士(fr)代表讲话的速度或速率输入样本进行了分析和输出语言是复制[22]。矩形窗口的大小,在女士(fs)代表帧大小为窗口的演讲是非常有用的。LPC模型(L)的顺序代表极数的滤波器。因此,语音合成进行了在一个固定范围的这些重要参数的值。
c .视觉分析谱图
为了使高效的合成,合成语音的频率、振幅和持续时间必须与原始记录类似的演讲。LPC模型的性能和有效性的合成记录调用使用语音谱图进行了分析。的声音(即原始记录和合成两个物种被观察到的呼吁做出视觉对比记录和通话质量保持视图合成不同的因素,如共振峰,带宽和振幅。光谱图是一个计算机生成的情节显示了在语音信号中不同频率呈现在每一个瞬间的时间。光谱图是一个有用的方法来识别声音信号的基础上他们的振幅,频率和持续时间。这些声音代表语音信号作为他们的绝对值的平方短时傅里叶变换(STFT)。光谱图可以画的三维图和时域频率。最初的时域和频率合成的情节与象征的改变语音信号的频率视图[23],[24]。
d .主观评价
主观评价进行了比较天然和合成语音的质量。主观评价方法,指导所有的听众听到的语音信号仔细评级或得分的所有加工或合成语音信号,从而认识到感知通话质量[25]。意见分数是一个方法来提供一个数值语音输出的质量。这种方法使用主观测试,固执己见的分数数学平均,得到一个指示的演讲质量[26],[27],[28]。它被定义为所有的个人得分的算术平均值1-Bad值介于1和5,两个非常烦人,3-Annoying, 4-Good 5-Excellent。为了评估合成工艺的整体精度,平均意见分(MOS)进行测试评估的相似性和自然语音合成质量找出LPC模型的综合性能。五听众给分数范围从1到5的物种在不同的叫声,比较天然和合成语音的质量。因为所有的调用被随机听所有的听众。所以,每个侦听器分四次电话,没有的平均值。次打电话听计算为每个侦听器。 The MOS scores and standard deviations for all the calls were also calculated. The listener must be good in hearing and capable of differentiating the synthesized signal from any distortion or background noise in comparison to natural signal. The listener must sit in a quiet room and the noise level of the room must be below 30 dB. The listening test was performed using high quality headphones (Sony MDR-XD200).

结果和结论

调查确定LPC模型的有效性进行了分析和合成的电话的印度Ringneck和非洲灰鹦鹉物种。的调查,发现LPC参数影响合成语音的质量。当窗口大小“fs”变得更大于时间“fr”的大小,然后合成语言变得扭曲,视为讨厌的或不可接受的声音形式。因此,参数的调整值作为fs = 30 ms, fr = 20 ms和L = 21所以合成语言可接受。
演讲通过视觉感知的声音,它发现了频率或共振峰(频带),振幅和持续时间的记录和合成电话几乎是相似的。换句话说,它可以看出合成调用的谱图进行了分析,发现几乎类似于自然或记录声音呼吁这两个物种。谱图的绘制和分析不同的调用上述的物种。的声音(例如,一个印度的原始和合成调用Ringneck和非洲灰鹦鹉物种是图4和图5所示,分别。
意味着意见评分(MOS)打进了五个不同的听众表示为不同的调用从L1到L5 C1 C6, C7 C12的物种。MOS得分和标准差印度Ringneck和调用的非洲灰鹦鹉物种是显示在表我,及其对应的块地块图7和图7所示,分别在MOS得分由块(光黑色及其标准差由+酒吧上面块)。印度的总体平均MOS得分Ringneck和非洲灰鹦鹉物种计算为4.23和4.39,分别。从估计的参数,因此,视觉感知的言论通过声音,听力测试或主观评价、MOS得分和块情节,得出结论,认为合成声音形式的通话质量很好。所以,LPC模型可以有效地用于合成的印度Ringneck的电话和非洲灰鹦鹉物种。
图像
图像
图像
图像

引用

  1. 拉宾,L。,“Fundamentals of Speech Recognition” Pearson, India, 1993.
  2. 库那,V.B.,“Novel pitch detection algorithm with application to speech coding,” M.S.Thesis, Dept. of Elect.Engineering, University of New Orleans, 2003.
  3. Harma,。,"Automatic identification of bird species based on sinusoidal modeling of syllables," in Proc. ICASSP, Hong Kong, 2003.
  4. Somervuo, P。,Harma,。and Fagerlund, S., “Parametric representations of bird sounds for automatic species recognition,” IEEE Trans. Speech and Audio Processing, vol. 14, no. 6, pp. 2252 – 2263, 2006.
  5. 辛格,R。,Lehana, P。and Singh,G. “Invesigations of the phonemes in the calls of little owls using vector quantization,” In t. journal of Information technology and knowledge management, vol. 2, no. 2, pp. 337-342, 2009.
  6. Fagerlund, S。,“Acoustics and physical models of bird sounds, '' in Seminar in acoustics, HUT, Laboratory of Acoustics and Audio Signal Processing, (Espoo), April 2004.
  7. Moustaki, N。,“Bird Brains: Parrot intelligence,” in Parrot for Dummies, Wiley publishing, Hoboken, ch. 15, 2005.
  8. 马勒,p . Slabbekoorn,汉斯,“鸟儿歌唱,为什么它很重要,”在大自然的音乐:科学的鸟鸣,卷2,爱思唯尔学术出版社,加州ch.9, 2004年。
  9. 佩珀堡,我m。,“Vocal learning in Grey parrots (Psittacus Erithacus): Effect of social interaction reference and context” in Auk, USA, vol. 111, pp.300-313, 1994.
  10. Skripal, P。,“Analysis of acoustic communication in parrots” Diploma Thesis, Dept. of computer science and Engg., Czech Technical University.
  11. http://www.2ndchance.info/parrottalk-structureofsyrinximage.htm
  12. 肖尼西,交货单,“Speech Analysis,” in Speech Communications, 2nded., Hyderabad, Universities Press Private Limited, ch.6, pp.192-209, 2001.
  13. 那么Madane境沙,Z。,Shah, R, and Thakur, S., “Speech Compression using linear predictive coding,” in Proc. Machine Intelligence Research, Nagpur, 2009.
  14. 范教授,杰和瓦格纳。,“A geostatistical model for linear prediction analysis of speech,” Pattern Recognition Society, Published by Elsevier Science, vol. 31, no. 12, 1998.
  15. 彼特,R.M.V.和滤布,柔M,”介绍,育种和偷猎的猩红色的金刚鹦鹉在温带国家“开放鸟类学杂志》,第五卷,1 - 4,2012页。
  16. http://www.birdtricks.com/psittacula-krameri.html
  17. http://www.bestwest.ca/images/AFRICAN%20GREY%20PARROT [2] . pdf
  18. 瓦尔,F.B.M.D.泰克说,P.L.,“Vocal communication in wild parrots,” in Animal social complexity, Harvard University Press, ch.11, pp.293-303, 2003.
  19. http://www.acguanacaste.ac.cr/loras_acg/parrots.home.html
  20. 泰勒和迈克尔,r,“Vocalizations of the brown headed parrot Poicephalus cryptoxanthus: their general form and behaviourial context”, OSTRICH, pp. 61-72, 2005.
  21. http://www.sony-asia.com /产品/ icd-ux523f
  22. Gupta, R。,Mehta, A.K. and Tiwari, V., “Vocoder (LPC) analysis by variation of input parameters and signals” ISCA journal of Engineering sciences, vol. 1, no.1, March, pp.57-61, 2012.
  23. 底盘,R。,“Digital Signal Processing and Applications with the C6713 and C6416 DSK” John Wiley and sons, 2004.
  24. Kammler D。W,“第一次在傅里叶分析”,剑桥大学出版社,2008年。
  25. Philipos,中一段,“Speech quality Assesment”, Multimedia, Processing, Analysis and communications, University of Texas-Dallas, U.S.A, pp. 623-654, 2011.
  26. 同时,D。,“Dual channel speech enhancement using HADAMARD-LMS algorithm with DCT preprocessing technique” International journal of Engineering science and technology, vol.2, no. 9, pp.4418-4423, 2010.
  27. Lehana, P。K和Pandey, P。C,语音信号的短时谱包络转换使用多元多项式建模”在第十七次全国会议通信学报》2011年(NCC),班加罗尔,印度,2011年1月28 - 30。
  28. 奥斯曼,k和艾哈迈德,Z。H,“标准马来语语音系统”计算机科学国际期刊,2卷,没有。4、285 - 293年,2007页。