在线刊号(2278-8875)印刷版(2320-3765)
V.Harika1, a .苏巴拉米·雷迪2, s.c. Venkateswarlu3.
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际电气、电子和仪器工程高级研究杂志
本文采用离散小波变换对泰卢固语语音质量的六个客观指标进行了研究,并提出了两种混合阈值分割方法,将软阈值和改进阈值分割方法与改进阈值分割方法相结合。并与其他阈值分割方法进行了性能比较。结果表明,该方案在低信噪比(0dB)条件下对泰卢固语噪声语音信号的处理效果较好。该方法将有噪声的语音信号分成多个重叠的帧,并利用汉明窗对每个帧进行加窗。将加窗语音块应用到基于小波的语音增强算法中,对增强后的语音进行时域重构。对于泰卢固语语音信号的去噪,使用了硬阈值法、软阈值法、改进阈值法、改进阈值法和混合阈值法等各种技术。在不同的高斯白噪声环境下,利用多贝希小波和子波进行分析。本研究考虑了六个客观质量指标来测试算法对泰卢固语语音质量的增强性能,并进行了比较。在基于小波的语音去噪中,混合阈值方法优于硬阈值、软阈值、改进阈值和改进阈值方法。
关键字 |
语音增强、客观质量测量、阈值化、离散小波变换、汉明窗。 |
介绍 |
言语是人类最主要的交流方式。因此,增加和改善电信[1]是一个大趋势。如今,所有人都把使用电话、手机、互联网等通信设备作为首要目标,客户对覆盖范围和质量都有很高的要求。但是语音信号经常被附加的背景噪声所降低。对于终端用户来说,在这样嘈杂的环境中收听是非常困难的。因此,有必要开发语音增强算法。语音增强是语音处理中最重要的领域。语音增强是指从噪声观测中恢复语音信号的方法。在过去的几十年里,人们针对这一问题提出了许多算法和各种方法,如谱减法[2]、基于小波的方法[3]、隐马尔可夫建模[4]和信号子空间方法[5],以提高输入信号受损后语音信号的感知质量。 |
基于小波的去噪算法是语音增强的一种方法。将泰卢固语语音句子应用到该算法中进行增强。泰卢固语是德拉威人中南部的语言。它是印度共和国22种法定语言之一,主要在印度的安得拉邦和泰伦加纳邦使用,在那里它是一种官方语言。一些邻近的邦也说这种语言。泰卢固语是印度第三大母语语言(7400万)。泰卢古语维基百科是第一个超过2万篇文章的南亚语言,目前在所有南亚语言中拥有最多的文章[6],[7]。 |
小波已被发现是去除噪声的有力工具。小波的基本思想是在每个小波尺度[8]上分别分析噪声电平。小波阈值法利用预先设定的阈值处理小波系数。通过对有噪声语音信号进行小波变换得到小波系数。假设高振幅系数是由原始信号引起的,低振幅系数是由噪声引起的。阈值化是将每个小波系数与预设的阈值进行比较,如果小波系数小于阈值,则将其置零,否则保持或减小振幅。本文采用软阈值法、硬阈值法、改进阈值法和提出的混合阈值法对信号进行去噪。 |
在本文中,为了研究算法的性能,必须进行客观质量度量和主观质量度量。主观评价是基于一个听者或一组听者对原始语音数据和经过处理的语音数据的比较。他们主观地根据预先确定的标准对演讲的质量进行排名。但这既昂贵又耗时。因此,选择信噪比、段信噪比、频率加权段信噪比、对数似然比、加权谱斜率距离、倒谱距离等6个客观指标进行性能评价试验。 |
论文的组织结构如下:第二部分介绍了语音增强的研究背景,第三部分介绍了小波变换语音增强和提出的阈值化方案,第四部分介绍了语音材料;第五部分将小波变换应用于泰卢固语语音样本,第六部分描述了客观质量测量,第七部分介绍了模拟和结果,第八部分描述了结论。 |
背景 |
语音增强基本上有两个领域。第一种是时域方法,第二种是变换域方法。时域方法是直接对时间序列进行滤波。这包括基于LPC的数字滤波、隐马尔可夫模型(HMM)和卡尔曼滤波等技术。在变换域技术中,首先将信号变换到新的域,然后对变换后的系数进行噪声衰减。这些技术有傅里叶变换(FT)、离散傅里叶变换(DFT)、离散余弦变换(DCT)、小波变换(WT)等。噪声污染信号的时域滤波方法简单,只有在低频信号中去除高频噪声时才有优势。然而,在现实条件下,它们并不能提供令人满意的结果。小波变换的优点是小波分析允许对低频信息使用较长的时间间隔,对高频信息使用较短的区域。 |
基于小波的语音信号增强技术是由Donoho和Johnstone提出的。该方法基于对噪声语音信号的小波系数进行阈值处理。小波的基本思想是根据尺度进行分析。小波分析程序是采用一个小波原型函数,称为分析小波或母小波。然后,任何信号都可以用母小波的平移和缩放版本表示。小波分析能够揭示其他信号分析技术(如傅里叶分析)无法揭示的数据方面,如趋势、击穿点、高导数的不连续和自相似性。此外,由于它提供了与传统技术不同的数据视图,它可以压缩或去噪信号而没有明显的退化[9]。该方法如图1所示,其过程将在第三节中说明。 |
基于小波阈值的语音增强 |
使用所提出的混合阈值方案的语音增强可以总结如下。 |
A.噪声的产生和添加: |
生成具有零均值和恒定方差的加性高斯白噪声,并将其添加到干净的泰卢固语语音信号中。对干净语音信号加噪声的过程表示为: |
B.步骤: |
基于小波的语音增强算法涉及的步骤如下: |
1)分类: |
在语音处理中,语音是一种非平稳信号,其性质随时间快速变化。所以计算DWT是不可能的。由于这个原因,有噪声的语音信号被分割成重叠的帧块。每帧的长度为256个样本。连续两帧之间的重叠量为50% ~ 75%。在本项目中,帧之间的重叠量为50%。这意味着,每一帧都比前一帧移动了128个样本。 |
2)窗口: |
窗口被定义为一个函数,该函数在某个选定的区间之外的值为零。为了避免帧之间的不连续,每一帧都乘以一个窗口函数。该方法采用了汉明窗。汉明窗最常用于语音信号的加窗。它是一种定长窗,只有窗长控制着窗的主瓣宽度或窗函数的性能。理查德.W。汉明提出了一个汉明窗口。它是凸起的余弦窗。汉明窗定义为, |
3)离散小波变换: |
离散小波变换已经成为广泛应用的有力工具。小波对信号进行时域和频域的多分辨率分析。离散小波变换由于其标准正交特性而产生非冗余信息。离散小波变换(DWT)采用多分辨率滤波器组和小波滤波器对原始语音信号进行分解和重构。它提供了足够的信息,减少了分析和综合的计算时间。有Haar、Daubechies、Coiflets、Symlet、Biorthogonal等不同的小波族用于分析和合成信号。小波的选择决定了最终的波形形状。本研究选择了Daubechies家族中的Db4和Db6,以及Symlet家族中的Sym5和Sym7进行语音增强。 |
给定一个母小波(t)(可以简单地认为是2 L的基函数),连续小波 |
其中,“a&”为频率信息对应的尺度参数,“b&”为变换中时间信息对应的平移参数。离散小波变换(DWT)本质上是CWT的采样版本。X (a, b)的值在离散网格上计算,而不是使用(a, b)& R: |
H0=低通分解滤波器;h1 =高通分解滤波器, |
采样下来操作。A1为1级洁净信号的近似系数。D1是第1层的详细系数。 |
5)阈值: |
小波阈值是一种充分利用信号去噪能力的信号估计技术。阈值分割的性能完全取决于给定应用所使用的阈值分割方法和阈值分割规则的类型。对详细系数而不是近似系数应用阈值分割,因为详细系数包含信号的重要组成部分。得到了估计的小波系数。本文利用多分辨率的概念,去除添加到清洁语音信号中的加性高斯白噪声。阈值需要从噪声信号中去除噪声。如果阈值过高,可能会切断原始信号的含量,如果阈值过低,可能无法正确去除噪声。 |
Donoho和Jonstone[8,10]提出了一种去除信号中加性高斯白噪声的时间常数阈值。本文的工作是基于水平相关阈值,根据每层小波详细系数的方差计算出的阈值对详细小波系数进行修正。阈值的数学表达式为: |
式中,N为含噪声语音信号的样本数,σi为j级噪声的标准差,由 |
这里Dj是第j层详细系数的集合Dj是其中的一个元素。本研究采用Hard, Soft, Improved, Modified Improved[11]和提出的Hybrid thresholdmethod, Hybrid thresholdmethod是一种将改进的阈值法与软阈值法和改进阈值法相结合的方法。 |
A.硬阈值:在硬阈值中,所有绝对值小于阈值的Waveletâ '  ' s细节系数都被设置为零,其他waveletâ '  ' s细节系数被保留。它被定义为, |
B.软阈值:软阈值是硬阈值的扩展版本。它将所有waveletâÂ′Â′s的细节系数设置为零,其绝对值小于与硬阈值相同的阈值,并将非零系数缩小为零。它被定义为, |
D. Modified Improved Thresholding: A.Ghanbari和m . karami提出了Modified Improved Thresholding[11]。对于大于阈值的小波系数,阈值函数类似于硬阈值函数;对于小于阈值的小波系数,阈值函数类似于EQ.(10)中给出的指数函数。 |
在这个函数中,一个重要的因素是γ,在这个工作中γ =3是为了有更好的性能[11]。 |
E.混合阈值分割:在这种方法中,作者提出了两种新的阈值分割方案,分别是将改进的阈值分割方案与软阈值分割相结合,以及将改进的阈值分割与改进的阈值分割相结合,定义如下EQ.11和EQ.12所示。 |
(6)信号重构 |
利用离散小波反变换(IDWT)可以对原始信号进行重构或合成。综合从近似系数和细节系数Aj和Dj开始,然后通过上采样和重建滤波器滤波进行重建。重构滤波器的设计可以抵消小波分解阶段引入的混叠的影响。重构滤波器与low - pass和high - pass分解滤波器一起,形成一个被称为正交镜滤波器(QMF)的系统。对于多层分析,重构过程本身可以迭代,产生更精细分辨率的连续近似值,并最终合成原始信号,如图2(b)所示。 |
一、首先用DWT对输入信号帧进行分解:选择一个小波,确定一个小波变换的分解级别L,然后对信号x (n)进行分层小波分解。 |
2选择阈值法对小波系数进行量化。在小波分解的各个层次上应用阈值,该阈值根据阈值调整小波系数。 |
3最后,在不影响信号感兴趣特征的情况下,对去噪后的信号进行重构。通过对每个分解层次进行不同小波系数的逆离散小波变换(IDWT)进行重构。 |
7).重叠叠加法:将去噪后的短时间信号叠加在一起,得到增强语音信号。 |
演讲材料 |
本节的目的是获取语音样本。实验部分由三名男性和三名女性(年龄在23岁左右)在一个安静的房间里,以48千赫和16位值的采样率,以正常语速记录每句著名的泰卢固语谚语三次。然后将这些数字化语音采样到8千赫,然后标准化以用于分析。将高斯白噪声以4种特定的信噪比(15 dB, 10 dB, 5 dB, 0 dB)添加到语音信号中。采用小波变换技术从噪声语音信号中提取增强语音信号。所产生的参考信号对和增强信号对用于评价语音质量的客观指标。 |
将小波变换应用于泰卢固语语音样本 |
[8]用于选择最优小波的一个合适的准则是前N/2(其中N=Total no. 2)中保留的能量。一帧中的数据点)系数。在此基础上,选取Daubechies4 (db4)、Daubechies6 (db6)、Symlet5 (Sym5)和Symlet7 (Sym7)小波进行分析。在DWT中选择正确的分解级别非常重要,原因有很多。对于处理语音信号来说,超过5级没有任何好处。在更高的水平上,近似数据不那么重要,因此在近似输入信号[12]时做得很差。然而,在这项工作中,由于大多数基于小波变换的语音去噪过程只使用高达2级或3级的语音信号去噪,因此语音信号帧被分解到2级。多级分解实现了对信号x(n)进行分解,得到小波系数(A1, D1等),并从系数[13],[14]对信号进行重组的分析综合过程。利用EQ.5-EQ对小波系数进行阈值修正。12,然后进行重建步骤。2shows the process of decomposing and reconstructing the signal waveforms using high pass and low pass filters. The procedure for Telugu Speech denoising using Wavelet Transform was summarized in fig.1 |
客观质量测量 |
通过本文描述的六种客观语音质量测量方法,分析了增强信号的性能。 |
1.信噪比:信噪比(SNR)是信号能量与噪声能量的比值,表达式[15-19]为: |
其中s(n)是干净信号,��(n)是增强语音信号,n是帧长。 |
2.Seg-SNR: Seg-SNR是基于帧的信噪比,它是一种改进的质量度量。在这里,信噪比是在短帧上测量的,并对结果进行平均,给出[15-19]为: |
其中s(n)是干净信号,��(n)是增强语音信号,n是帧长。M表示帧数。 |
3.加权谱斜率距离:WSS距离测量计算每个频段谱斜率之间的加权差。光谱斜率是相邻光谱幅度之间以分贝为单位的差值。WSS度量的定义和评估[17]为 |
其中W(j, m)是计算出来的权重。Sc(j, m)和Sp(j, m)分别为清洁语音信号和处理语音信号在第m帧第j个频段的频谱斜率。 |
4.对数似然比:LLR测量是基于原始语音和增强语音的所有极点模型之间的差异,并给出[18]为: |
其中ap和as分别为干净语音段和增强语音段的LP系数向量。Rs表示干净语音段的自相关矩阵。 |
5.倒谱距离:它给出了两个谱之间对数谱距离的估计。定义为[15- 19] |
其中Cs(n)和Cp(n)分别代表干净语音和增强语音的倒谱。Cs (k、m) =再保险(IDFT{日志| |}](15) |
倒谱系数也可以用下面的表达式从LPC系数递归地得到[9-10] |
6.频率加权分段信噪比:它类似于分段信噪比,在频带上也有额外的平均。定义为[15,19]: |
其中W (j, m)是施加在第j个频带上的噪声依赖权重,K是频带数,m是信号中的总帧数,s(j, m)是第j个频带第m个帧的加权干净信号频谱,and��(j, m)在同一频带的加权增强信号频谱中。 |
仿真结果 |
对来自authorsÃⅱÂ′Â′数据库的泰卢固语语音信号进行离散小波变换去噪算法处理,得到的去噪信号称为增强语音信号用于分析。采用六种客观的语音质量增强指标对增强信号的性能进行了分析。在Matlab中实现了处理算法和客观评价所获得质量的算法。测量方法为EQ.13-EQ.18中定义的WSS、LLR、fwseg-SNR、Cep、Seg-SNR和SNR。所有的测量都是通过使用相邻帧之间重叠50%的汉明窗口分割32毫秒时长的泰卢固语句子来计算的。在基于LPC的客观测量LLR的计算中,采用了十阶LPC分析。在信噪比为0dB、5dB、10dB和15dB的加性高斯噪声条件下,研究了算法的性能,如表1(a)-1(f)所示。从作者开发的语料库中选取了5个男性和女性使用英语字母书写的泰卢固语干净语音句子,并将其用于本工作。 |
在这些干净语音信号中加入已知信噪比的高斯白噪声,得到噪声信号。将噪声语音信号分解为小波系数,分解级别为2。该去噪算法采用Daubechies小波(db4, db6)和symlet小波(sym5, sym7)进行去噪。对小波系数分别采用软阈值法、硬阈值法、改进阈值法、改进阈值法和提出的混合阈值法实现语音信号的增强。增强语音在客观测量方面的表现见表1 (a)-1.(f)。 |
摘自表格1(a)-1(c)得出结论,Db4和Sym5在低噪声条件下(0dB),与Db6和Sym7小波相比,在信噪比测量方面有更好的结果。考虑到SNR、Seg-SNR和fwseg-SNR值越高,质量越好,而LLR、WSS和CEP值越低,[15]质量越好,显然,与本文描述的其他阈值分割方法相比,混合阈值分割方法在SNR、Seg-SNR和fwseg-SNR方面表现更好。从表1(d)-1(f)中,LLR、WSS和CEP测量值表明,在本文考虑的四个小波族中,软阈值法和改进阈值法的结果都更好。因此,软阈值和改进阈值方案最适合提高泰卢固语语音质量。从LLR测量可以观察到,软阈值和改进的阈值方案取得了显著的改善。混合阈值法除了在LLR测量的情况下,也产生了与本工作中描述的其他方法相当的结果。观察表1(a)-1(f)的结果,在低信噪比条件下,采用所提出的混合阈值方法可以很好地实现泰卢固语语音增强方案。我们未来的工作重点是为小波去噪方案设计一个更好的阈值函数来增强泰卢固语语音信号。使用其他知名标准技术与小波变换对泰卢固语语音增强的比较研究正在进行中。 |
结论 |
本文比较研究了硬阈值法、软阈值法、改进阈值法、改进阈值法以及提出的基于Daubechies和Symlet小波族的混合阈值法对泰卢固语语音信号的增强。针对泰卢固语语音进行小波去噪,给出了阈值函数的选择。对五篇泰卢固谚语的影响已经进行了研究。最后给出了所提取参数的取值。从结果来看,Db4和sym5比本研究选择的其他小波表现更好。作为他们未来工作的一部分,提出的算法将在Babble, Car和Airport等真实噪音中进行测试。 |
确认 |
这项工作是通过安得拉邦Chittoor区Srikalahasti电子与通信工程系Srikalahasteeswara理工学院(SKIT)的研究设施进行的,作为M.Tech论文工作的一部分。作者还想感谢SKIT当局对这项研究工作的鼓励。我们还要感谢为本文的发展作出贡献的专家们。 |
参考文献 |
|