所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

音频信号分离与分类:综述论文

丝绸Smita1,莎米拉·比斯瓦斯2桑迪普·辛格·索兰基3.
  1. Birla理工学院,梅斯拉,兰契,印度
  2. Birla理工学院,梅斯拉,兰契,印度
  3. Birla理工学院,梅斯拉,兰契,印度
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

音乐信号的特征并不仅仅是因为其他混合音频信号。混合音频信号包含音乐信号与语音信号、语音甚至背景噪声混合。因此,混合信号需要单独分类。研究人员开发了许多算法来解决这个问题,同时考虑到音乐信号的特征:音色、和声、音高、响度等。ICA(独立分量分析)算法基于盲源分离,HSS(谐波结构稳定),“SOSM”方法(二阶统计测量方法),基于正弦参数的音频分类使用FDMSM等混合信号分类算法。本文着重介绍了这些现有方法及其实验结果。

关键字

谐波结构稳定性;ICA;高速钢;FDMSM;SOSM;音频分离;的声音;音乐

介绍

在这个数字世界中,有效地管理音频数据的数字内容已成为研究人员的一个重要领域。然而,由于手工索引和标记耗时且昂贵,基于内容的混合音频信号自动分类系统是目前各种信号应用的必要条件。混合音频信号中声音、音乐和噪声的分离是音乐研究中的一个重要问题。在这里,voice指的是歌中的嗓音,music指的是乐器。混合信号的分离对音乐检索、分类与分割、多音高估计等研究都有重要的意义。除了音频信号分离,音频分类也很重要,原因如下:
(a)不同的音频类型应以不同的方式处理。
(b)在检索过程中将分类后的搜索空间缩减为特定的子类。
这种方法降低了计算的复杂性,人们可以为特定的信号选择特定的研究领域。例如,语音信号可用于语音识别,音乐信号可用于音乐分析,语音可用于说话人识别。

2相关工作

在这篇评论中,音乐信号是主要的兴趣。音乐信号的特征是根据其音高、响度、持续时间、和声结构和音色。音色主要用于声源的识别。音乐信号比声音更“有秩序”。音乐的熵比语言的熵在时间上更恒定。
在各种信号分离方法中[1-16],谐波结构模型[4,5]扩展了用于提取谐波结构的多基音估计算法,采用聚类算法计算谐波结构模型。然后,利用这些模型对信号进行分离,以区分不同信号的谐波结构。
ICA (Independent Component Analysis)是一种从混合物中提取单个信号的方法。它的力量在于物理假设,即不同的物理过程产生不相关的信号。这一假设的简单和通用性质使ICA能够成功地应用于各种各样的研究领域。Vanroose使用ICA从语音中去除音乐背景,通过减去最小熵的ICA分量[6]。一般的信号分离方法没有充分利用音乐信号的特殊性。吉尔金和特
Won提出了一种单通道盲信号分离[7]的概率方法,该方法是通过学习先验基滤波器集来挖掘声源固有的时间结构。在谐波结构稳定方法[4]中,不需要训练集,所有信息都直接从混合音频信号中学习。Feng等人利用FastICA从混合[11]中提取歌唱和伴奏。
音频分类是根据不同的特征和特征,将大部分音频分为语音、音乐和噪声[2-3]。使用了许多特征,包括倒频谱[4],[5],功率谱或使用支持向量机(SVM)分类器在[6]中提出的ZCR。基于正弦参数的音频分类方法[5]引入了一种新的无监督特征选择方法;为了确定哪些特征是最优的,在分类中具有较高的准确性。仅使用这些获得的特征,证明了可接受的分类精度。此外,由于支持向量机(SVM)和相关向量机(RVM)在许多文献中已被证明是音乐类型识别的最佳分类器,因此本文采用了它们。该分类系统根据新的音频特征、表示谐波的正弦参数以及子带能量对音频进行分类。这些正弦参数共同表示了不同频带的谐波比(HR)和能量。
另一种用于分类的方法是一些声音的统计辨别和识别[6]。该方法找到了一种预处理技术,可以区分不同的声音。该技术以Bimbot引入的相似度度量μGc为基础,用于说话人识别任务。

3方法

A.独立成分分析[9]

盲信号分离(BSS)或独立分量分析(ICA)是在很少先验信息的情况下识别和分离混合信号源的方法。采用非高斯性对ICA模型进行估计。ICA包括两个基本步骤
(a)“非线性去相关”-在这一步中,计算矩阵W,使得对于任何i≠j,分量yi和yjare不相关,变换后的分量g(yi)和h(yj)是不相关的,其中g和h是一些合适的非线性函数。
(b)“最大非高斯性”-在x的方差为常数的约束下,线性组合y= wxy的非高斯性的局部极大值。每个局部极大值给出一个独立的分量。

B.谐波结构稳定性分析[4,5]

该算法先找出音乐的平均谐波结构,然后利用它分离信号来区分语音和音乐的谐波结构。该算法主要包括预处理、谐波结构提取、音乐平均谐波结构分析、信号分离等步骤。
S(t)是单音音乐信号。
图像
分别为谐波的瞬时幅值和相位,R为最大谐波数,f0(τ)为基频,e(t)为非谐波或噪声分量。
将s(t)划分为重叠帧,通过检测星等谱中的峰值,计算f0l和Ar l。Ar l=0,如果不存在第r次谐波。L = 1,…, L为帧索引。f0 l和[A1 l,…,AR l]表示谐波的位置和振幅。通过乘以一个系数ρl= C/A1 l(C是一个任意常数)来归一化Ar l,以消除振幅的影响。将振幅转换为对数刻度,因为人耳对信号强度的灵敏度大致为对数。然后将谐波结构系数定义为一个方程。声音的音色主要是由谐波的数量和它们的振幅之比控制的,所以Bl = [Bl 1,…] ,Bl R], which is free from the fundamental frequency and amplitude, exactly represents the timbre of a sound. In this paper, these coefficients are used to represent the harmonic structure of a sound. Average Harmonic Structure and Harmonic
结构稳定性定义如下,以模拟音乐信号并测量谐波结构的稳定性。
谐波结构Bl, Bl i为谐波结构系数:
图像
AHS和HSS是Bl的均值和方差,由于大多数乐器的音色是稳定的,所以在一个音乐信号中,Bl在不同帧的变化很小,AHS是一个很好的表示音乐信号的模型。相反,语音信号中的Bl、Bl变化较大,对应的HSS比音乐信号大得多。

C.二阶统计度量方法[7]

该方法[5]基于单高斯模型[3],使用了一些相似度度量,这些度量被称为二阶统计度量(SOSM)。使用这些措施是为了在语音信号的每个片段中识别说话人。
实验采用μ gc0.5和μG0.5两个量程。在声音分类的情况下,用μGc0.5来衡量相似率,可以了解所考虑的声音的类型。
如果μGc 0.5[Threshold_minj, Threshold _maxj],则我们将所考虑的声音识别为类型«j»。
Threshold_minj= min(μGc0.5(speech,soundf))
Threshold_maxj= max(μGc0.5(speech,soundj))
其中,单词«sound»表示一组具有相同类型的声音。«speech»表示一组参考说话者。J表示属于某个“J”类的某个声音。

D.基于音频分类的正弦参数[8]

语音信号包含周期性和非周期性信息,这是由于事件的脉冲性质或发生在无声区域的“类噪声”过程。因此,我们可以对底层观测到的音频信号的时间窗口段写如下所示:
图像
其中n = 1,…,Ns为样本指数,θ= (al,fl,l)分别表示包括第l个正弦分量的幅值、频率和相位在内的正弦参数,l为信号中正弦分量的个数,(n)为建模为零均值加性高斯噪声序列的观测噪声。一般情况下,需要估计相应的正弦参数,包括频率fl、幅值al、相位∅l和正弦波个数l,图1[8]为FDMSM模型过程的基本框图。而图2给出了本文提出的音频分类系统[8]的框图。
图像
为了提取某些mel波段的振幅及其相关频率等正弦参数,采用了最先进正弦模型的改进版本,也称为固定维修正正弦模型(FDMSM)[16]。
在使用FD-MSM方法进行正弦分析的最后,我们在每个时间窗口帧达到三重特征,如下所示:
图像
进一步进行特征选择,使用无监督方法作为预处理,找到原始特征的最小子集。

四、讨论取得的成果

A.独立成分分析[9]

ica实验结果如图3[9]所示。观测到的信号混合如图4[9]所示。原始语音信号如图3所示,混合信号如图4所示。ICA算法仅使用图4中的数据恢复图3中的数据。
图像

B.谐波结构稳定性分析[4,5]

从图5[4,5]可以看出,混合物分离得很好。音乐和声结构与相应的音乐AHS之间的距离较小(实验1和实验2的平均距离分别为0.01和0.006),而声音和声结构与音乐AHS之间的距离较大(实验1和实验2的平均距离分别为0.1和0.13)。因此,音乐AHS是一种很好的音乐信号表示模型和语音与音乐分离模型。
图5还显示了语音增强软件得到的语音增强结果,该软件试图估计语音停顿时的噪声频谱,并通过谱减法对语音进行增强。
图像

C.二阶统计度量方法[7]

这种方法有两个目的:一是语音与其他声音的区分;其次根据μGc值对不同的声音进行分类,用μGc值作为相似度的度量,对应于每个声音。例如,如果μGc在[2.52 - 4.92]范围内,那么我们可以说给定的声音应该是音乐(表1)。表1[7]显示了根据μGc范围对声音进行的分类。
图像

D.基于音频分类的正弦参数[8]

在这种方法中,假设S(k)为当前语音帧的频谱。为了完成峰值拾取过程,选择8毫秒跳点大小。它具有固定数量的正弦参数,并在感知方面保持尽可能接近原始信号的综合质量。这导致了显著的降低和更好的聚类性能。表2[8]显示了混合型音频分类精度。
图像
由于在仿真结果中得到启发,使用这样的正弦参数以及所谓的SVM分类器,将成功地提高所提出的分类的性能。图6[8]显示了使用SVM[8]的决策边界。
图像

诉的结论

信号分离是一个难题,一般情况下没有可靠的方法。通过对所有音频信号分离工作的详细研究,我们得出结论,谐波结构特性相对于其他特性是有效的,因为它保留了音频质量。此外,大多数乐器的声音本质上是调和的。音乐信号的谐波结构稳定。不同乐器演奏的音乐信号的和声结构是不同的。因此,我们可以很容易地分类和分离不同的信号。然而,这种算法不适用于非谐波乐器,比如一些鼓。一些节奏跟踪算法可以用来分离鼓的声音。
正弦参数法和SOSM方法等预处理技术也使我们得出结论,特征选择是研究领域特别是音乐领域的重要步骤。这就是为什么选择最有效和准确的特征对音频分类至关重要。像SVM这样的分类器被证明是最好的分类器,因为它们比其他分类器更准确,尽管它可能会被消耗的时间所抵消。

参考文献

  1. J. Pinquier, J. Rouas, R. A. Obrecht,“音频文档中的稳健语音/音乐分类”,国际口语处理会议,2005-2008,2002。
  2. G. R. Naik和D. K. Kumar“独立成分分析及其应用概述”,Informatica 35,第35页。63 - 81年,2011年。
  3. P. Vanroose,“语音和背景音乐的盲源分离改进语音识别”,第24届信息理论研讨会,第103-108页,2003年5月。
  4. 张永光,张春生,“基于谐波结构稳定性分析的语音与音乐分离”,中国声学与声学学报,2005,第4期,第562 - 565页,2005。
  5. 张永光、张春生,“基于谐波结构模型的音乐信号分离”,光子学报,2005。
  6. P. M. B. Mahalel, M. Rashidi, K. Faez, A. Sayadiyan“一种新的基于svm的混合音频分类”,NIPS, 2004。
  7. H. Sayoud, S. Ouamour“一些声学声音的统计辨别和识别”,GCC会议(GCC),页。2006年1 - 5日。
  8. P. MowlaeeBegzadeMahale, A. Sayadiyan, K. Faez,“基于正弦参数的混合类型音频分类”,第3届国际信息与通信技术会议,2008。
  9. A. Hyvärinen和E. Oja“独立成分分析:算法和应用”,第13卷,pp, 411-430,2000。
  10. A. Ozerov, P. Philippe, F. Bimbot,和R. Gribonval“单通道源分离贝叶斯模型的适应及其在流行歌曲中语音/音乐分离的应用”,《IEEE音频,语音和语言处理学报》,第15卷,第5期,第5页。1564 - 1578,2007。
  11. S. Koval, M. Stolbov和M. Khitrov,“宽带噪声消除系统:工作性能优化的新方法”,在EUROSPEECH ' 99,第2607-2610页,1999。
  12. 张桂杰,李宗伟,“单通道盲信号分离的一种概率方法”,电子工程学报,2003。
  13. 冯玉玉,庄玉玉,潘玉玉,“基于独立成分分析的流行音乐检索”,载于《音乐信息学报》,页281 - 282,2002。
  14. Anssiklapuri和Manuel Davy“转录的信号处理方法”,施普林格科学,第6- 9,2006。
  15. F. BIMBOT, I. magarin - chagnolleau, et L. MATHAN 1995,“文本无关的广播者识别的二阶统计度量”。《言语交际》,第17卷,第1-2期,177-192页,1995年8月。
  16. 李淑贞,“基于最接近特征线方法的音频分类与检索”,《语音与音频处理学报》,Vol. 8, Issue: 5, pp. 619 - 6252000。
全球科技峰会