关键字 |
趋势估计,音高检测,歌声分离。 |
介绍 |
从某种意义上讲,歌声分离是语音分离的一种特殊情况,有许多类似的应用。例如,自动语音识别对应于自动歌词识别,自动说话人识别对应于自动歌手识别,自动字幕对齐将语音和字幕对齐为可用于卡拉ok系统的自动歌词对齐。与语音分离相比,歌声分离更简单,音高变化更小。另一方面,有几个主要的区别。对于语音分离或鸡尾酒会问题,目标是将目标语音从各种类型的背景噪声中分离出来,这些背景噪声可以是宽带或窄带,周期性或周期性的。此外,背景噪声在大多数情况下是独立于语音的,因此它们的频谱内容是不相关的。歌唱声音分离的目标是将歌唱声音从音乐伴奏中分离出来,在大多数情况下,音乐伴奏是宽带的,周期性的,与歌唱声音有很强的相关性。此外,女高音歌手唱歌的上音高边界可高达1400hz,而正常语音的音高范围在80 - 500 Hz之间。这些差异使得歌唱声音和音乐伴奏的分离更具挑战性。 |
在歌唱语音分离方面,现有的方法根据其基础方法的不同,大致可以分为三类:频谱分解法、基于模型的方法和基于音调的方法。谱图分解方法通过将输入信号分解为一组重复的成分来利用唱歌声音和音乐伴奏的冗余。然后将每个组件分配给一个声源。基于模型的方法只从音乐伴奏片段中学习一组频谱。然后通过固定伴奏谱从声音混合中学习声音信号的谱。基于音高的方法使用提取的声音音高轮廓作为线索来分离歌唱声音的和声结构。音乐声音分离系统试图将单独的音乐来源从声音混合中分离出来。人类的听觉系统赋予了我们非凡的能力,可以从一段音乐中识别正在演奏的乐器(有音调和无音调),还可以听到正在演奏的乐器的节奏/旋律。这个任务对我们来说似乎是“自动的”,但事实证明在计算系统中很难复制。 |
Hu和Wang[1]提出了一种联合迭代执行基音估计和语音分离的串联算法。串联算法为每帧提供一个以上的候选基音,并且存在连续分组(即连续分组)的问题。,决定哪个音高轮廓属于目标)。Wang和Brown[9]提出了一种新的信道/峰值选择方案,利用了歌唱声音的突出性和高频信道中的节拍现象。利用HMM模型集成了不同频段和时间段的周期性信息,提高了歌唱优势音高检测的准确性。问题是,低频频道不能提供足够的信息,在乡村音乐和摇滚乐中遇到的强烈的打击声中区分不同的声源。 |
Klapuri等[7],专注于在流行音乐中识别唱歌片段的问题,作为一种有用的、易于处理的音乐内容分析形式,特别是作为歌词自动转录的先驱。在[2]中,基于隐马尔可夫模型(HMM)检测基音。本文提出了一种优势音高检测算法,该算法可以在伴奏较强的情况下检测出不同音乐类型的演唱声音的音高。这种方法的一个问题是高频范围内的频率分辨率是有限的。因此,该系统不能用于高音歌唱的分离。然而,大多数类型的演唱,如流行音乐、摇滚和乡村音乐,都有一个较小的音域,因此,这个系统可以潜在地应用于广泛的问题。 |
Wang和Brown[5]提出了一种用于多音高噪声语音跟踪的鲁棒算法。该方法结合了用于跨不同通道提取周期性信息的基音确定算法(pda)和用于连续基音轨迹的隐马尔可夫模型(HMM)。pda的一个常见问题是谐波和次谐波误差,其中检测到的是音高的谐波或次谐波,而不是真实的音高本身。在这里,当乐器的数量增加时,表现明显下降。 |
系统描述 |
我们的系统包括三个阶段。系统的输入是一种混合的歌声和音乐伴奏。在歌唱语音检测阶段,首先通过检测显著的频谱变化将输入分割成频谱均匀的部分。然后,每个部分被分类为有歌声的声乐部分和没有歌声的非声乐部分。 |
优势音高检测阶段检测声乐部分的音高轮廓。在这一阶段,声音部分首先由滤波器组处理,该滤波器组模拟听觉外围的频率分解。听觉滤波后,从每个信道的输出中提取周期性信息。然后采用隐马尔可夫模型(HMM)对基音生成过程进行建模。最后,利用维特比算法将最可能的音高假设序列识别为唱歌声音的音高轮廓。 |
分离阶段有两个主要步骤:分割步骤和分组步骤。在分割步骤中,将语音部分分解为T-F单元,根据时间连续性和跨声道相关性形成音段。在分组步骤中,利用检测到的音高轮廓将T-F单元标记为歌唱属音或伴奏属音。大部分T-F单元被标记为歌唱优势的片段被分组形成前景流,与歌唱声音相对应。分离的歌唱声音然后从属于前景流的片段重新合成。整个系统的输出是分离的唱歌声音。 |
下面的小节将详细解释每个阶段。 |
A.歌声检测 |
这一阶段的目标是将输入分为有声和非有声部分。因此,这一阶段需要解决分类和分区问题。对于分类问题,系统设计中的两个关键组件是特征和分类器。 |
当一种新的声音进入混合物时,它通常会带来显著的光谱变化。因此,可以通过识别显著的光谱变化来确定混合物中声音事件的可能实例。 |
谱变化检测器在一个框架(框架是一个样本块,其中信号被假定为接近平稳)中计算期望光谱值和观测光谱值之间的复域欧几里得距离η(m)。 |
|
在哪里是在帧m和频率库k处观测到的光谱值。相同帧和相同bin的期望光谱值是否计算 |
|
在哪里是前一帧在bin k处的光谱大小。为期望相位,可计算为前一帧相位与前两帧相位差之和。 |
(3) |
在哪里分别是坐标系m-1和坐标系m-2的展开相位。η(m)计算为每帧16 ms,帧位移为10 ms。 |
η(m)的局部峰值表示光谱变化,这可能是声音的光谱内容发生了变化,也可能是新的声音进入了场景。为了适应光谱变化和光谱波动的动态范围,采用动态阈值法来识别光谱显著变化的实例。具体来说,如果η(m)大于H=10窗口中的加权中值,则帧m将被识别为显著谱变化的实例 |
(4) |
其中C=1.5对应权重因子。 |
利用滤波器组中的13个三角形滤波器,每帧产生13个MFCC系数。最后,采用MFCCs (mel-frequency倒谱系数)系数作为短期特征进行分类,并对所有帧进行计算。两个连续光谱变化实例之间的部分是相对均匀的,然后可以将短期分类结果集中在部分上,以产生更可靠的分类。现在,高斯混合模型(GMMs)被用来将一个帧分类为属于两个簇之一(声乐或非声乐)。 |
B.优势基音检测。 |
在第二阶段,部分分类为声音被用作输入的主要基音检测算法。我们的主要音调检测开始于一个用于频率分解的听觉外围模型。信号以16khz采样,并通过64通道伽玛通滤波器组。信道的中心频率在等效矩形带宽(ERB)尺度上均匀分布在80hz和5khz之间。 |
第一级输出一旦使用滤波器组分解成通道,就被分割成帧,持续时间为20毫秒,两边重叠10毫秒。因此,属于信道的单个帧被称为时频单元或T-F单元。设ucm表示通道c和帧m处的T- F单元,y(c, T)表示通道c和时间T处的滤波信号。ucm处对应的归一化相关图a (c, m, τ)由以下自相关函数(ACF)计算: |
(5) |
其中τ是时间延迟。Tm为帧移,Tn为采样时间。上面的总和超过40毫秒,一个时间框架的长度。ACF的峰值表示滤波器响应的周期性,相应的延迟表示周期。 |
跨声道相关性测量两个相邻滤波器响应之间的相似性,表明滤波器是否响应相同的声音成分。因此,我们计算了之间的跨通道相关性 |
(6) |
其中A表示A / τ的平均值。 |
中心频率高于800Hz的信道视为高频信道。对于所列出的高频信道,使用Teager能量算子和低通滤波器提取高频信道中的包络。对于数字信号Sn, Teager能量算符定义为: |
(7) |
然后用三阶巴特沃斯滤波器在800hz下对信号进行低通滤波。相应的输出受到相关图的影响,并取代原来的高频通道相关图。 |
为了检测属于一个帧的主导音高,所有的信道输出都被总结和归一化。在2.5- 12.5 ms (80- 400 Hz是人类的基音范围)的持续时间内出现的第一个峰值,阈值大于0.6被认为是主基音周期。如果在特定的帧中没有得到这样的结果,则称为音乐主导帧。 |
我们的串联算法通过估计理想二进制掩码(IBM)来检测多个音高轮廓,并通过预混合源信号构造的二进制矩阵来分离歌手。在IBM中,1表示歌唱声音在相应时频单位内强于干扰,0表示歌唱声音在相应时频单位内强于干扰。当且仅当相应的响应或响应包络具有与目标相似的周期性时,T- F单元被标记为1。 |
C.唱腔分离 |
分离阶段有两个主要步骤:分割步骤和分组步骤。在分割步骤中,我们的算法为每个T-F单元提取以下特征:能量、自相关、跨通道相关和跨帧相关。接下来,通过合并相邻的T-F单元,基于时间连续性和跨通道相关性形成片段。只考虑那些具有显著能量和高跨通道相关性的T-F单元。 |
在分组步骤中,趋势估计算法采用迭代方法估计目标信号的基音轮廓。由于我们已经获得了主要的基音轮廓,我们直接在分组步骤中提供检测到的基音轮廓。如果T-F单元的局部周期性与检测到的帧的音调点相匹配,则该单元被标记为歌唱主导。如果在某一帧内的大部分T-F单元被标记为歌唱属音,则该片段在该帧内被歌唱声主导。所有唱歌的主音段被组合成前景音,与唱歌的声音相对应。 |
评价 |
在本节中,我们对整个分离系统的性能进行了评估。 |
如图2所示,将一首持续时间为20秒的著名歌曲作为输入输入系统。识别帧之间的光谱变化是必要的,因为当一个新的声音进入或离开一个混合物时,它通常会引入显著的光谱变化。因此,可以通过识别显著的光谱变化来确定混合物中声音事件的可能实例。图3显示了输入歌曲的相邻帧之间的频谱变化。 |
在歌唱语音检测阶段的最后,通过结合瞬时频谱变化和高斯混合模型(GMM)输出得到的掩模,去除音乐单独存在的帧。但是声音和音乐同时出现的部分还没有被删除。图4。显示第一个阶段的输出。 |
第一级的输出被馈送到一个有64个滤波器的伽玛通滤波器组。然后将输出分为大小为20ms和两侧重叠为10ms的帧,并计算每个通道的单个帧相关性,也称为相关图。使用这个,每帧的主导音高被估计出来。通过跨信道和跨帧相关得到的掩码分别如图5(a)和图5(b)。结合跨信道和跨帧相关的掩码如图5(c)所示。最终的二进制掩码如图6所示,1表示歌唱声音在相应时频单元内比干扰强,0表示反之。为输入歌曲获得的最终的纯声乐输出部分如图7所示。 |
结论 |
正如引言中提到的,很少有系统被提出用于歌唱声音分离。通过集成歌唱分类、优势音高检测和基于音高的分离,我们的系统代表了歌唱分离的第一个通用框架。所提议的系统的另一个重要方面是它对不同类型的适应性。目前,我们的系统是独立于类型的,即摇滚乐,卡纳迪克音乐,电影音乐和乡村音乐是同样的方式处理。从某种意义上说,这就是所提议的制度的优点。然而,考虑到种类繁多的音乐,依赖类型的系统可能会获得更好的表现。给定类型信息,系统可以适应特定的类型。唱歌的声音检测阶段可以使用特定类型的样本进行重新训练。我们还可以将算法扩展到唱歌声音识别、歌词识别、语言识别、歌曲混音、男女声分离、卡拉ok应用、将男声转换为女声或反之亦然等应用 |
我们已经通过使用歌曲中只有声音的部分演示了从女声到男声的音高转换的示例。最后的混音是用原音乐完成的。我们期待将此算法应用于所有列出的应用程序。 |
数字一览 |
|
|
|
|
|
图1 |
图2 |
图3 |
图4 |
图5一个 |
|
|
|
|
图5 b |
图5 c |
图6 |
图7 |
|
|
参考文献 |
- 胡国强,王德良,â '  '“一种用于音高估计和语音分离的串联算法,â ' ”IEEE反式。音频,演讲,朗。过程.,第18卷,no。第8卷,第2067- 2079页,2010年11月。
- 李永和王德良,â '  '“单声道录音中唱腔与伴奏的分离,â ' ”IEEE反式。音频,演讲,朗。过程。第15卷,no。4,pp. 1475-1487, May 2007.
- 金兆章,王德良,â '  '基于HMM的多音高噪声混响语音跟踪,â ' Â]IEEE反式。音频,演讲,朗。过程。第19卷,no。5,第1091- 1102页,2011年7月。
- 胡国强,王德良,â '  ' '基于基音跟踪和振幅调制的单耳语音分离,â ' Â]IEEE反式。神经。第15卷,no。5,第1135- 1150页,2004年9月。
- 吴敏,王德良,G.J. Brown, â ' “一种多音高噪声语音跟踪算法,â ' ”IEEE反式。语音处理。,第11卷,no。3.,pp. 229-241, May 2003.
- G.J. Brown和M. Cooke, â '  '计算性听觉场景分析,â '  '第一版。演讲朗。第8卷,第297- 336页,1994。
- Klapuri, â '  '基于谐波性和频谱平滑性的多重基频估计,â '  'IEEE反式。语音音频处理。第11卷,no。6,第204- 816页,2003年11月。
- 李勇,王德良,â '  ' '复调音频中歌唱声音的音高检测,â '  ' '相依Acoust。,Speech, Signal Process., 2005, vol. 3, pp. 17-20.
- 王德和G. Brown, â '  '基于听觉场景分析的单耳语音分离方法,â '  ',《声学回波与噪声控制》,E. Hansler和G. Schmidt,编。德国海德堡:施普林格,页485-515,2006。
- 由E. Ambikairajah教授主持的语音处理视频讲座,新南威尔士大学http://www.onlinevideolectures.com/theuniversity-of-new-south-walves。
- Lawrence Rabiner and Biing- Hwang Juang, â ' “语音识别基础,â ' ”第四版,Prentice Hall, 1978。
|