关键字 |
趋势估计,检测,歌声分离。 |
介绍 |
歌声分离,从某种意义上说,一个特例的语音分离和有许多类似的应用程序。例如,自动语音识别对应于歌词自动识别、自动说话人识别自动歌手识别,自动字幕对齐将语音和字幕自动抒情对齐,可以用于一个卡拉ok系统。语音分离相比,分离的歌声可以简单的用更少的音高变化。另一方面,有几个主要的差异。语音分离,或者鸡尾酒会问题,目的是区分目标语言和各种类型的背景噪音,可以宽带、窄带周期或一个周期。此外,背景噪声是独立的言论在大多数情况下,这样他们的光谱是不相关的内容。歌声分离,我们的目标是独立的歌声从音乐伴奏在大多数情况下,宽带,周期和唱歌的声音强烈相关。此外,上距边界唱歌可以高达1400赫兹的女高音歌手虽然正常语音的音高范围是80到500赫兹。这些差异使歌声和音乐伴奏的分离可能更具挑战性。 |
歌声分离,现有的方法一般可以分为三个类别根据其基本方法:光谱图分解、基于模型的方法和pitch-based方法。谱图分解方法利用冗余的歌声和音乐伴奏的输入信号分解成池重复组件。每个组件然后分配给一个声源。基于模型的方法从音乐伴奏只学到一套光谱段。声音信号的光谱然后从修复伴奏谱的声音混合。Pitch-based方法使用音调轮廓提取作为线索分离的谐波结构唱歌的声音。乐音分离系统试图独立的个人音乐来源从声音混合物。人类听觉系统给了我们非凡的能力(搭和Non-pitched)的识别工具从一段音乐也听个人的节奏和旋律乐器演奏。这项任务似乎“自动”我们已经证明是非常难以复制的计算系统。 |
胡和王[1]提出了一种串联算法执行共同音高估计和语音分离和迭代。串联算法给出了不止一个音高候选人每一帧,并顺序(即分组的问题。,决定音高轮廓所属目标)。小王和布朗[9],提出了一种新的渠道/选择方案利用峰值显著的歌声和跳动现象高频通道。HMM模型被用来整合跨频率周期性信息渠道和时间框架,提高了嗓音的基音周期检测的准确性。问题是低频率频道不提供足够的信息分辨不同的声音来源的强劲冲击声音遇到在乡村音乐和摇滚音乐。 |
Klapuri等[7],专注于识别段唱的流行音乐的问题作为一个有用的和易于操作的形式对音乐的内容分析,特别是自动转录的前兆的歌词。在[2]中,检测到球场基于隐马尔可夫模型(HMM)。在这里,一个主要的基音检测算法可以检测不同音乐流派的歌声距即使伴奏是强大的。这种方法的一个问题是,高频的频率分辨率范围是有限的。由于这个系统不能用于单独的尖锐的歌声。然而,大多数类型的唱歌,比如在流行,摇滚,乡村音乐,音高范围较小,因此,该系统可以应用于广泛的问题。 |
小王和布朗[5]提出了一个健壮的multipitch跟踪算法的嘈杂的演讲。这种方法包含了球场决心算法(pda)中提取周期性的信息在不同的渠道和一个隐藏的马尔可夫模型(HMM)连续跟踪。pda的一个常见问题是谐波、次谐波误差、谐波、次谐波的检测到球场,而不是真正的球场本身。在这里,乐器数量增加时显著降低性能。 |
系统描述 |
我们的系统由三个阶段组成。系统的输入是歌声和音乐伴奏的混合物。在歌声检测阶段,首先划分为幽灵似地均匀输入部分通过检测重要的光谱变化。然后,每个部分是归类为声乐部分的嗓音,或通过“歌声不在的一部分。 |
主要的基音检测阶段检测沥青轮廓声乐部分的歌声。在这个阶段,一个声乐部分是第一个由filterbank处理模拟的频率分解听觉外围。听觉过滤后周期性信息提取每个频率的输出通道。下一个隐藏的马尔可夫模型(HMM)用于模型的生成过程。最后,最可能的假设序列被确定为音调轮廓的歌声用维特比算法。 |
分离阶段有两个主要步骤:分割步骤和分组步骤。在分割步骤中,声乐部分分解为t f单位,从这段形成基于时间连续性和横跨海峡的相关性。在分组步骤中,t f单元标记为主导或伴奏唱歌主要使用检测到的轮廓。段的多数t f单位贴上唱歌主要分组形成前台流,它对应于歌唱的声音。然后分开的歌声后段属于前台的流。整个系统的输出是歌声分开。 |
下列部分详细解释每个阶段。 |
答:歌声检测 |
这个阶段的目标是输入分割成声音和“部分。因此,这个阶段需要解决分类和分区问题。对于分类问题,系统设计中的两个关键组件的特性和分类器。 |
当一个新的声音走进一个混合物,它通常介绍了重要的光谱变化。结果,可能声音事件的实例可以确定混合物通过识别重要的光谱变化。 |
光谱改变检测器计算欧式距离η(m)在复数域之间预期的光谱值和观察到的一分之一帧(一个框架是一个块样品在这附近的信号被认为是固定的)。 |
|
在哪里是观察到的光谱值m和频率本·k。是预期的光谱值相同的框架和垃圾桶,计算了吗 |
|
在哪里前一帧的光谱级在本·k。是预期的阶段,可以计算阶段的和前一帧和前两帧之间的相位差。 |
(3) |
在哪里是框架的打开阶段分别m - 1和m - 2帧。η(m)计算每一帧的16帧转移10 ms的女士。 |
当地高峰η(m)表明光谱变化,这可以是声音的频谱内容正在改变或一个新的声音进入现场。适应的光谱变化的动态范围以及光谱波动,动态阈值应用于识别重要的光谱变化的实例。具体来说,一个框架m将被视为重大的光谱变化的实例,如果η(m)大于加权中值大小的窗口H = 10 |
(4) |
其中C = 1.5对应的权重因子。 |
利用13个三角形过滤器的滤波器组,从而生成13 MFCC系数每帧。最后,mel-frequency cepstral系数(MFCCs)系数被用作短期功能分类和计算框架。两个连续的光谱变化之间的部分实例相对均匀,和短期的分类结果可以集中在部分产生更可靠的分类。现在高斯混合模型(gmm)用于分类框架属于其中一个集群(口头或通过“)。 |
主要的基音检测。 |
在第二阶段,部分分为声乐作为一个主要的基音检测算法的输入。我们主要的基音检测始于听觉外围模型频率分解。信号采样16岁kHz,通过一个64 -通道gammatone filterbank。的中心频率通道上均匀分布的等效矩形带宽(ERB)规模80赫兹至5 kHz。 |
第一阶段输出一次使用滤波器组分解为渠道,是分成帧持续时间20 ms 10 ms重叠。因此单帧属于一个通道是一个时频单元或t f单位。让ucm表示T - F组频道c和m帧,和y (c、T)过滤信号通道c和时间T。相应的归一化相关图(c、m、τ)在ucm计算由以下自相关函数(ACF): |
(5) |
在时间延迟τ。Tm是帧转移和Tn是采样时间。上面的总和超过40 ms,时间的长度。ACF的峰值显示过滤器的周期性反应,和相应的延迟显示时间。 |
跨渠道相关措施的反应两个相邻过滤器之间的相似性,说明过滤器是否应对同样的声音组件。因此,我们计算跨通道之间的相关性 |
(6) |
一个在τ表示的平均。 |
中心频率高于800赫兹的频道被视为高频通道。上市的高频通道,Teager能量算子和一个低通滤波器是用来提取高频通道的信封。数字信号Sn, Teager能量算子的定义是, |
(7) |
然后很低的信号,通过过滤在800 Hz使用第三阶巴特沃斯滤波器。相应的输出受到相关图和替换原高频通道的相关图。 |
检测主要属于一个框架,所有的通道输出总结和规范化。第一个高峰出现在2.5 - 12.5期间女士(80 - 400赫兹是人类的音高范围)阈值大于0.6是主要的基音周期。如果没有获得这样的结果在一个特定的框架,据说music-dominant。 |
我们串联算法检测多个音高轮廓和分离的歌手估计理想二元掩模(IBM)是一个二进制矩阵构造使用预混合的源信号。在IBM, 1表明,嗓音比干扰在相应的时频单元和0。T - F单位标注1当且仅当相应的响应或响应信封有周期性相似的目标。 |
c .歌声分离 |
分离阶段有两个主要步骤:分割步骤和分组步骤。在分割步骤,分割步骤,我们的算法提取每个t f单位以下特点:能量,自相关,横渡英吉利海峡的相关性,和满足相关性。接下来,通过合并相邻t f段形成单位基于时间连续性和横跨海峡的相关性。只有那些t f单位有重要能源和高横跨海峡的相关性。 |
在分组步骤中,这一趋势估计算法迭代方法适用于估计目标信号的轮廓。以来我们已经获得的轮廓,我们直接提供检测轮廓在分组步骤。t f单元看成是唱歌主导如果当地周期性匹配检测节点的框架。如果大多数t f单位在一定的框架内贴上唱歌主导,段据说是由歌唱的声音在这个框架。所有的歌唱主导段分组形成前台流,这对应于唱歌的声音。 |
评价 |
在本节中,我们评估整个分离系统的性能。 |
著名歌曲的持续时间20秒已被美联储为系统的输入,如图2所示。识别帧之间的光谱变化是必要的,因为当一个新的声音进入或离开一个混合物,它通常介绍了重要的光谱变化。结果,可能声音事件的实例可以确定混合物通过识别重要的光谱变化。图3显示了输入相邻帧之间的光谱变化的歌。 |
在歌声结束检测阶段,帧音乐单独存在在哪里被应用的面具结合即时获得的光谱变化和高斯混合模型(GMM)输出。但部分声音和音乐出现在同一时间尚未被移除。图4所示。显示第一阶段的输出。 |
第一阶段的输出是美联储gammatone过滤器银行64过滤器。然后输出分为帧大小20 ms和10 ms重叠两侧和个人为每个通道也被称为帧相关性计算相关图。使用这个,主要估计每一帧。由于跨渠道获得的面具和满足相关图5所示(a)和图5 (b)。面具结合交叉流道和满足相关图5所示(c)。最后二元掩模,1表明,嗓音比相应的时频单元的干扰和0否则图6所示。最后vocal-only获得输入输出部分歌曲illustarted在图7中。 |
结论 |
在介绍中提到的,很少有系统提出了歌声分离。通过集成的嗓音分类、主要检测,和pitch-based分离,我们的系统代表的第一个总体框架歌声分离。提出了系统的另一个重要方面是不同类型的适应性。目前,我们的系统类型独立,即。,rock music, carnatic music, cine music and country music are treated in the same way. This, in a sense, is strength of the proposed system. However, considering the vast variety of music, a genre-dependent system may achieve better performance. Given the genre information, the system can be adapted to the specific genre. The singing voice detection stage can be retrained using genre-specific samples. We can also extend our algorithm to applications such as Singing voice recognition, Lyrics recognition, Language identification, Song remix, Male and female voice separation, Karaoke application, Converting male voice into female voice and vice-versa |
我们展示了一个示例的音高翻译女性的男性声音通过使用只能部分歌曲。最后重新合成了与原来的音乐。我们期待这个算法申请所有列出的应用程序。 |
数据乍一看 |
|
|
|
|
|
图1 |
图2 |
图3 |
图4 |
图5一个 |
|
|
|
|
图5 b |
图5 c |
图6 |
图7 |
|
|
引用 |
- g .胡锦涛和D.L.王,¢串联音高估计算法和言论表示分离,一个¢IEEE反式。音频,演讲,朗。过程18卷,。8日,第2079 - 2067页,2010年11月。
- y和李D.L.王,¢分离音乐伴奏的单声道录音的歌声,一个¢IEEE反式。音频、语音、朗,过程。15卷,没有。4,pp. 1475-1487, May 2007.
- Zhaozhang金和刘德亮Wang¢嗯——基于multipitch跟踪噪声和混响演讲,一个¢IEEE反式。音频、语音、朗,过程。19卷,没有。5,页1091 - 1102,2011年7月。
- g .胡锦涛和D。王,一个¢单声道的演讲隔离基于跟踪和调幅,A¢IEEE反式。神经。15卷,没有。5,页1135 - 1150,2004年9月。
- m·吴D.L.王和G.J.布朗,一个¢multipitch跟踪算法嘈杂的演讲,一个¢IEEE反式。演讲音频的过程。,11卷,不。3,pp. 229-241, May 2003.
- G.J.布朗和m·库克一个¢计算听觉场景分析,一个¢第一版。演讲朗。8卷,第336 - 297页,1994年。
- Klapuri,¢多个基本频率估计基于调和性和光谱平滑,一个¢IEEE反式。演讲音频的过程。11卷,没有。2003年11月6日,页。204 - 816年。
- y和李D.L.王,一个¢检测沥青复调音频的歌声,一个¢Proc, IEEE Int。相依Acoust。、演讲、信号的过程。,2005, vol. 3, pp. 17-20.
- d . Wang和g·布朗,¢听觉场景分析方法来隔离单声道的演讲,一个¢在声学回声和噪音控制话题,大肠hansl和g·施密特,Eds。德国海德堡:施普林格,485 - 515年,2006页。
- 视频讲座教授语音处理的e . Ambikairajah新南威尔士大学,http://www.onlinevideolectures.com/theuniversity-of-new-south-walves。
- 劳伦斯·拉宾和bi -黄Juang¢语音识别的基础,一个¢第四版,普伦蒂斯霍尔出版社,1978。
|