关键字 |
发音模型,听觉模型,共振峰跟踪模型,FFT,共振峰频率,共振频率。 |
介绍 |
人的声道可以被认为是一个单一的管道或一些管道的组合,其中不同的横截面积在管道的某一端或沿着管道的特定点被激发。根据声学理论,从激发源到输出的能量传递函数可以称为管的共振固有频率。共振峰频率取决于声道的尺寸和形状,每种形状都有一组共振峰频率的特征。声道形状的变化产生不同的声音。因此,随着声道形状的变化,语音信号的频谱特征随时间的变化而变化。一般来说,人类声道在3500赫兹以下会出现三个显著的共振。形成峰频率表示法是一种高效紧凑的语音表示法。 |
任何语言的元音都是识别说话人的重要因素,因为它包含了大量的说话人信息。本文尝试用Formant频率测量法对印度东北部主要语言Bodo语中的元音进行分析,并观察到一些独特的结果。 |
语音识别和共振分析 |
共振峰可以定义为声谱的谱峰|P(f)|[5]。这些通常是峰值,被称为共振频率,|T(f) |。虽然在大多数情况下,可以看到共振频率|T(f)|和共振频率|p (f)|是相同的,但在某些特殊情况下可能会有所不同。 |
在过去的几十年里,为了发展说话人识别系统,人们发展了许多语音信号的分析和合成方法。其中,Formant Tracking Method[3,4]、articulation model[6]和Auditory model被认为是语音识别和研究的基础模型。其中,基于线性预测编码(Linear Predictive Coding, LPC)的Formant Tracking Model更为成功[5,7]。本研究中用于确定Bodo元音形成峰频率的形成峰模型是基于Welling等人提出的模型。应用这种技术,整个频率范围被划分为固定数量的段,其中每个段代表频率。为每段K定义了一个二阶谐振器,具有特定的边界。一个被定义为相应二阶预测器的傅里叶变换的预测多项式由[9]给出 |
|
现在,使用公式(2),估计了男性和女性信息者的六个Bodo元音的共振频率。正确的发音由一些Bodo语音专家检查。为了获得峰频率,对频谱进行了一次傅里叶变换(FFT)。 |
方法 |
在本研究中,内容材料以两套印刷形式准备-一套供举报人使用,另一套供验证者使用。被调查者被要求用正确的无重音发音说话,同时尽可能保持恒定的音高。在准备内容材料时,被调查的元音被嵌入到自然运行的单词中,然后元音从单词中分离出来并作为语料库条目存储。在每次记录某一特定项目后,举报人有10至15分钟的休息时间。 |
选择年龄在15至30岁之间、语音质量良好的男性和女性线人记录数据。只有以研究生或研究生为母语的人才会被选中。为确保准确性和一致性,录音过程由有关语言的声学语音专家监督。 |
结果 |
对于目前的研究,记录的数据集对第一(F1),第二(F2)和第三(F3)形成峰频率进行分析,如下所示: |
使用音频编辑软件Cool Edit Pro对重要片段进行录音和分离,然后使用MATLAB 7.1和专用的语音信号分析工具COLEA (COchLEA工具箱的子集)进行分析。每个数字化的声音被记录下来,分为50帧,每帧持续时间为20毫秒。每一帧包含大约441个样本,并对每一帧的共振频率(F1, F2和F3)进行计算和研究。图1(a)和图1(b)分别描述了男性和女性所选择的说话者所对应的Bodo元音的共振频率变化,图1(a)和图1(b)分别描述了男性告密者发出/a/和/e/的元音,图2(a)和图2(b)分别描述了女性告密者发出/a/和/e/的元音。 |
讨论及结束语 |
对男性和女性告密者Bodo元音的共振频率分析揭示了以下事实: |
从男性和女性说话者元音的共振峰频率的图像表示中,可以观察到,对于不同的语音和单个说话者,共振峰频率F3没有任何显著的特征。因此,就语音和说话人识别而言,F3不起任何重要作用。同时,F1在不同元音上的变化非常明显和突出,F2在一定程度上也表现出显著的意义。因此,F1和F2可被认为对博多语男女线人的言语和说话人识别有用。 |
还注意到,/a/、/e/、/o/、/w/的第二个构成因子F2在波多族告密者的性别鉴定中起重要作用。另一方面,对于男性举报人,频率的变化在一次或两次灭绝后更为缓慢,并且在所有F1, F2和F3中观察到均匀的频率变化。 |
表格一览 |
|
|
表1 |
表2 |
|
|
数字一览 |
|
|
参考文献 |
- 拉宾纳,张宝红,“语音识别的基础”,Dorling Kinderseley(印度),w.k.。陈,线性网络与系统(书体)。Belmont, CA: Wadsworth, pp 123-135, 1998。
- D. Talkin,“使用具有调制转换成本的动态规划的语音形成峰频率估计”,AT&T贝尔实验室,新泽西州McGraw Hill, 1987年
- O. Schmidbaner,“连续语音中的自动形成峰提取算法”,Proc. eusipcco -90,第五届欧洲信号处理会议,pp . 115, 1990。
- 阿塔尔,b.s.和Hanauer, s.l.,“基于语音波线性预测的语音分析和合成”,声学学报。Soc。点。,50, pp.637-655, 1971.
- H.B. Richard, Mason J.S. Hunt m.j.和Bridle J.S.,“派生语音的发音表征”,欧洲语音通信与技术会议,马德里,西班牙,1995年,第761页。
- Snell R.C.和Milinazzo F.,“LPC分析数据的形成峰位置”,IEEE译。语音音频,处理,pp-129, 1993。
- 韦林L.和neyh .,“语音识别的共振峰估计”,IEEE翻译。语音和音频处理,第134页。1998.
- Rabinar L.R和Schafer R.W,“语音信号的数字处理”,Prentice Hall, Englewood Cliff, NJ, 1978。
|