在线刊号(2278-8875)印刷版(2320-3765)
k . Satyapriya1(M.Tech), Yugandhar Dasari报道2 |
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际电气、电子和仪器工程高级研究杂志
语音编码一直是数字语音处理领域的主要问题。语音编码是将语音信号转换成更紧凑的形式,这种形式可以用很少的二进制数字进行传输。每次我们发送信号时,不可能访问一个信道的无限带宽,从而导致编码和压缩语音信号。在长距离通信、高质量的语音存储和消息加密等领域,语音压缩是必须的。例如,在数字蜂窝技术中,许多用户需要共享相同的频率带宽。利用语音压缩可以让更多的用户共享可用的系统。另一个例子是,在数字语音存储中需要语音压缩,以获得固定数量的可用内存,从而可以存储较长的消息。语音编码是一种有损编码,这意味着输出信号听起来不完全像输入信号。线性预测编码、波形编码和子带编码技术用于将语音从一个地方传输到另一个地方。实现了上述三种编码技术,对其压缩比和语音可听质量等性能指标进行了检测。
关键字 |
线性预测编码(LPC),波形编码,子带编码 |
我的介绍。 |
语音编码是将语音信号表示为有效传输或存储的过程。这些代码将通过有限带宽的有线和无线频道发送。语音编码的目标是在不降低语音信号质量的情况下,以紧凑的形式表示语音信号的样本。语音编码在蜂窝和移动通信中非常重要。它也被用于互联网协议语音(VOIP),视频会议,电子玩具,存档,数字同步语音和数据(DSVD),许多基于计算机的游戏和多媒体应用。此外,大多数语音应用程序要求最小的编码延迟,以避免由于长时间的编码延迟而阻碍语音会话的进行 |
语音编码器是将数字化语音信号转换为编码表示并以帧的形式传输的一种编码器。在接收端,语音解码器接收编码后的帧并合成重构后的语音信号。语音编码器主要在码率、时延、复杂度和合成信号的感知质量方面存在差异。有两种类型的编码技术,如窄带和宽带语音编码。窄带语音编码是对带宽在300 ~ 3400hz,采样率为8KHz的语音信号进行编码;宽带语音编码是对带宽在50 ~ 7000hz,采样率为14 ~ 16KHz的语音信号进行编码。最近,在视频会议等应用中对宽带语音编码技术的需求有所增加。 |
语音编码的目的是通过减少每个样本的比特数来压缩语音信号,但不应失去语音的质量。解码后的语音信号应该在声音上与原始语音信号难以区分。具体来说,语音编码方法实现了以下收益: |
比特率降低或相当于带宽。比特率的降低导致内存需求的减少,这与比特率成正比。 |
比特率的降低导致所需传输功率的降低,因为压缩语音每秒传输的比特数更少。 |
对噪声的抗扰性,每个样本所保存的部分位元可作为语音参数的保护误差控制位元。 |
语音编码技术主要有两种类型。2.无损。有损编码方法。有损编码技术使重构后的语音信号与原始语音信号在感知上存在差异,而无损编码技术则使译码端重构后的语音信号与输入语音信号具有完全相同的形状。大多数语音编码技术都是基于有损编码技术,因为从感知质量的角度来看,它会去除不相关的信息。 |
语音编码器的分类是基于它们产生合理质量输出的比特率和用于编码语音信号的编码技术的类型。 |
有不同的语音编码器类型。表1描述了四类编码器的比特率、算法复杂性和四种标准化应用 |
线性预测编码器(LPCs),假设输出的语音信号是线性时不变(LTI)的语音模型产生的。我们假设模型的传递函数为全极系统。激励函数是一个准周期信号,由离散脉冲(每节周期1-8个)、伪随机噪声或两者的组合构成。在接收机上产生的激励信号是基于发射的基音周期和语音信息,然后将系统指定为LPC声码器。关于激励信号的谱形状的额外信息被称为LPC-声码器,已被采用为2.0到4.8 kbps之间的编码器标准。另一方面,基于lpc的综合分析编码器(LPC-AS)采用大量候选激励,并从中选择最佳激励。这些LPC-AS编码器用于4.8到16 kbps之间的大多数标准。在波形编码概念中,编码后的语音信号波形与实际应用的语音信号波形相同,不考虑人类语音产生和语音感知的性质。这些编码员是高比特率编码员(超过16kbps)。子带编码器是频域编码器,它试图根据不同频段的频谱特性参数化语音信号。这些编码器不如基于lpc的编码器广泛使用。 |
2线性预测编码 |
线性预测编码(LPC)是一种功能强大、高质量、低比特率的语音分析技术,用于编码语音信号。LPC中使用的源滤波器模型也称为线性预测编码模型。它有两个主要部分LPC分析(编码)和LPC合成(解码)。LPC分析的目标是估计语音信号是浊音还是清音,找到每帧的音高和建立源滤波器模型所需的参数。这些参数被发送到接收机,接收机将利用接收到的参数进行LPC合成。 |
将语音信号滤波到系统采样频率的一半以上,然后进行A/D转换。LPC的编解码过程将在以下步骤中详细说明。 |
线性预测编码: |
第一步:读取数字格式的语音信号。 |
步骤2:选择LPC系数长度为10,帧时长为30ms,使帧长为331。 |
步骤3:将语音信号分成帧,每帧将被处理如下图所示。 |
步骤4:在做进一步处理之前,预先强调每一帧。 |
第五步:找到Filter响应来计算幅度和函数。计算零点交叉和俯仰周期。 |
步骤6:为msf,零交叉和间距周期设置阈值。 |
步骤7:根据步骤6检查帧是否有语音。 |
步骤8:根据帧是否有音计算LPC-10系数、增益和基音图。 |
步骤9:现在通过使用编码程序传输步骤8中获得的值。 |
第10步:接收端接收到信号,并将其解码为所需的形式 |
步骤11:对原始信号和接收信号进行验证。 |
语音线性预测编码(LPC): |
在语音分析和合成中,线性预测编码(LPC)方法是将声道建模为线性全极滤波器,其系统传递函数为 |
其中' '是极点数,是决定极点的参数,是滤波器增益。有两个激励函数来模拟浊音和清音语音。随机噪声发生器的输出将通过激励全极滤波器产生无声的声音。另一方面,通过周期脉冲序列刺激全极滤波模型生成语音。 |
这两种浊音和浊音的根本区别在于它们的产生方式。声带振动产生这些浊音。声带振动的频率决定了声音的音高,而;无声的声音不依赖于声带的振动。由于声道的收缩,产生了无声的声音。当声道打开时,声道的收缩迫使空气排出,从而发出无声的声音 |
给定语音信号的一小段,假设大约20毫秒或以8 KHz的采样率采样160个样本,发射器上的语音编码器必须确定适当的激励函数、浊音语音的基音周期、增益和系数美联社[k]。下面的框图描述了线性预测的编码器/解码器 |
编码。从数据中自适应确定模型参数,并将其建模为二进制序列并传输到接收机。在接收端,由模型信号和激励信号合成语音信号。 |
采用线性预测的方法从语音样本中确定全极滤波器模型的参数。线性预测过滤器的输出为 |
观测样本s(n)与预测值s(n)之间的误差为 |
通过最小化误差平方和来确定模型的极点参数ap(k)。对每一个参数和方程微分的结果为零, |
其中m = 1, 2, p… |
3波形编码 |
波形编码是语音编码中最简单的技术。波形编码器分析代码和重建原始信号,一个样本一个样本。波形编码器用于再现语音信号波形的确切形状,而不考虑人类语音产生和传递系统的性质。波形编码器在需要成功编码语音和非语音信号的应用中非常有用。以公共交换电话网(public switched telephone network, PSTN)为例,调制解调器和传真信号的成功传输,而信号的交换几乎与语音的成功传输同等重要。目前最常用的波形编码算法有统一16位PCM、复合8位PCM和ADPCM。 |
在时域和频域对波形编码进行了研究。时域波形编码利用周期性、缓慢变化强度等信号冗余,频谱(频)域编码利用语音信息在整个频段的不均匀分布。脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)、Delta调制(DM)是目前比较流行的时域波形编码技术,而变换编码(TC)、子带编码(SBC)是频谱域波形编码技术。 |
3.1 PCM: |
PCM是最著名的波形编码技术,它将每个语音值样本量化并编码为有限位数。在PCM编码中,将振幅可以取无限个可能值的语音样本与有限个振幅集进行比较,并在这些振幅集中选择闭合来表示实际振幅。所选的离散值被分配一个用于数字化的二进制码字,用于语音的传输或存储。PCM通常用于传输带宽或存储空间等资源不受限制的情况。在一种称为均匀量化的简单量化器中,离散振幅电平之间的间距保持相同。 |
脉冲编码调制(PCM)是对每个样本进行量化的少内存编码算法的名称 |
对于s(n),使用相同的重构级别^ s,k =0,…,m,……,K,而不考虑之前的样本值。重构信号s (n)由 |
3.2均匀PCM: |
均匀PCM是重构水平均匀分布在Smax和Smin之间的量化算法。均匀PCM的优点是量化误差功率不依赖于信号功率;高功率信号量子化的分辨率与低功率信号相同。在数字音频中,16位统一PCM是一种标准的编码方案。均匀PCM编码器的错误功率和信噪比随比特率的变化而变化。 |
四、语音编码原理及应用 |
4.1合成PCM: |
4.2波形编码: |
第一步:读取数字格式的语音信号。 |
步骤2:确定“mu”值和“位数”,使用表达式(13)对语音信号进行mulaw压缩 |
Step3:现在信号传输完毕 |
步骤4:在接收端接收到信号并用mu律压缩进行扩展 |
第五步:对原始信号和接收信号进行验证。 |
4.3子带编码: |
子带编码是实现语音信号数据压缩的一种有效方法。子带编码是将源信号分解为若干组成部分,然后分别进行解码。将某个频率对应的组成部分隔离开来的系统称为滤波器。如果它分离低频分量,它被称为低通滤波器。如果它能隔离高频分量,就称为高通滤波器。类似地,我们有带通滤波器。一般来说,如果一个滤波器同时隔离了多个频带,就可以称为子频带滤波器。子带编码中最常用的滤波器组由级联级联的级联段组成,其中每个级联段由一个低通滤波器和一个高通滤波器组成。 |
子带编码方案的三个主要组成部分是 |
分析和合成过滤器 |
比特分配方案 |
编码方案 |
如果我们应用滤波器组方案,源输出将通过滤波器。滤波器组涵盖了设计源输出的频率范围。每个滤波器的通带指定了每组可以通过的频率。现在抽取过程开始,采样滤波器的输出被子采样,这减少了样本的数量。子抽样的理由是奈奎斯特规则,它的扩展证明了下抽样。抽取量取决于滤波器输出带宽与滤波器输入带宽之比。然后将信号交给编码器,在编码器中使用几种编码方案之一对抽取后的输出进行编码,包括ADPCM、PCM和矢量量化。 |
通过选择压缩方案和在子带之间分配位,对由此获得的语音信号进行量化和编码。这种位分配过程对最终重建的质量影响很大。不同的子带有不同的信息量。这个信号通过信道传输。 |
接收并合成发射的信号。量化系数和编码系数用于在解码器处重建原始信号的表示。对每个子带的编码样本进行解码和上采样。重构滤波器组将给出不同的输出,这些输出组合在一起形成最终的重构输出信号。子带编码算法在语音编码、音频编码和图像压缩等方面都有应用。 |
子带编码: |
第一步:读取数字格式的语音信号。 |
步骤2:利用小波分析滤波器将语音信号分解为两级。 |
步骤3:现在将这些小波系数部分传输,通过识别接收信号的质量来实现压缩。 |
步骤4:在接收端,用小波合成滤波器对语音信号进行重构。 |
第五步:对原始信号和接收信号进行验证。 |
诉结果 |
六。结论 |
LPC重构后的语音声调比原语音低。该子带编码系统通过采样率转换和多速率信号处理控制压缩,极大地减小了误差。波形编码将提供显著的压缩和良好的声音质量。 |
参考文献 |
|