所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

音频信号分离和分类:评审论文

丝绸Smita1,Sharmila Biswas2Sandeep辛格Solanki3
  1. 贝拉理工学院、Mesra兰契,印度
  2. 贝拉理工学院、Mesra兰契,印度
  3. 贝拉理工学院、Mesra兰契,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

音乐信号并不仅仅因为其他混合音频信号特征。混合音频信号包含音乐信号与语音信号混合,甚至声音和背景噪音。因此,混合信号需要单独分类。研究人员已经开发出许多算法来解决这个问题记住他们的音乐信号的特征:通过音色、和谐、音调、响度等。ICA算法(独立分量分析)使用基于盲源分离、高速钢(谐波结构的稳定性),“SOSM”方法(二阶统计措施方法),基于正弦参数音频分类运用FDMSM等的混合信号分类算法。本文强调了所有这些现有的方法和实验结果。

关键字

谐波结构的稳定性,ICA;高速钢;FDMSM;SOSM;音频分离;的声音;音乐

介绍

在这个数字化的世界里,数字内容的音频数据的有效管理成为一个重要的研究领域。然而,由于耗时和昂贵的索引和手动执行的标签,一个自动的基于内容的分类系统混合类型的音频信号是一个必须为各种应用程序使用的信号。分离的声音(演讲),音乐在混合音频信号和噪声在音乐研究是一个重要的问题。这里,声音意味着在一首歌,歌声音乐乐器。混合信号的分离有利于其他音乐研究,比如音乐检索、分类和分割,结组估计,等。随着音频信号分离,音频分类很重要,由于以下原因:
(一)不同的音频类型应该处理不同。
(b)分类后的搜索空间降低到一个特定子类在检索过程中。
这种方法减少了计算复杂度和一个可以选择指定的特定研究领域的信号。例如,语音信号可以用于语音识别,音乐对音乐信号分析和语音的说话人识别。

二世。相关工作

综述,音乐信号的主要兴趣。音乐信号特征根据他们的音调,响度,持续时间、谐波结构和音色。音色主要用于识别声音的来源。音乐信号比声音更“命令”。音乐是时间常数的熵比演讲[1]。
在各种信号分离方法(1 - 16),谐波结构模型(4、5)延长结组估计算法用于提取谐波结构,和聚类算法用于计算谐波结构模型。然后,信号分离通过使用这些模型来区分不同信号的谐波结构。
ICA(独立分量分析)是一种从混合物中提取单个信号的方法。它的力量驻留在物理假设不同的物理过程产生不相关的信号。这种假设的简单和通用特性允许将ICA成功地应用于各种各样的研究领域[5]。Vanroose ICA用于删除音乐背景减法ICA组件从演讲的熵值最低的[6]。通用信号分离方法不充分利用音乐信号的特殊字符。Gil-Jin和Te
就提出了一个概率方法单通道盲信号分离[7],基于利用声源的内在时间结构通过学习先验过滤器的基础。在谐波结构的稳定性方法[4],不需要训练集,所有信息是直接从混合音频信号。峰等人采用FastICA从混合物中提取演唱和伴奏[11]。
根据不同的功能和特点、音频分类用于大多数音频分类为语言,音乐和噪音[2 - 3]。许多功能包括倒频谱使用[4],[5],功率谱或ZCR[6]提出了利用支持向量机(SVM)分类器。基于正弦参数音频分类方法[5]引入一种新的非监督特征选择方法;为了确定哪些特性最优分类的精度高。只使用这些特性获得证明可接受的分类精度是可以实现的。此外,支持向量机和相关向量机(RVM)被录用,因为他们已经被证明是最好的音乐类型分类器识别在很多文献。这个分类系统分类音频基于新的音频特性,正弦参数表示调和性以及部分波段能量。这些正弦参数共同代表调和性比率(人力资源)和不同频率子带的能量。
另一种方法用于分类统计歧视和识别一些声听起来[6]。这种方法找到一个预处理技术,允许不同的声音之间的差别。这项技术是基于相似性度量引入μGc Bimbot和用于说话人识别的任务。

三世。方法

答:独立分量分析[9]

盲目的信号分离(BSS)或独立分量分析(ICA)是识别和之前没有信息来源的混合物的分离。同时用于估计ICA模型。ICA包括两个基本步骤
(一)“非线性解相关”——在这个步骤中,矩阵W计算这对任何我≠j,组件yiand yjare不相关的,和转换后的组件g (yi)和h (yj)是不相关的,在g和h一些合适的非线性函数。”
(b)“最大同时指出”——同时局部极大值的线性组合y = Wxunder x的约束,方差是常数。每个局部最大给一个独立的组件。

b .谐波结构稳定性分析(4、5)

该算法发现平均谐波结构的音乐,然后通过使用单独的信号区分语音和音乐谐波结构。在这个算法预处理步骤,提取谐波结构,音乐平均谐波结构分析、信号的分离。
S (t)是单声部的音乐信号。
图像
rthharmonic的瞬时振幅和相位,分别R是最大谐波数,f0 fundamentalfrequency(τ),e (t)非调和或噪声组件。
s (t)划分为重叠框架和计算f0 l和Ar lby级频谱检测峰值。基于“增大化现实”技术的l = 0,如果不存在仅仅谐波。l = 1,。L是帧索引。f0 l和[A1 l。,基于“增大化现实”技术的l]描述的位置和谐波的振幅。正常化Ar l乘以一个系数ρl = C / l A1 (C是一个任意常数)消除振幅的影响。的振幅转化为对数尺度,因为人类的耳朵有一个大致对数对信号强度的敏感性。谐波结构系数被定义为一个方程。声音的音色主要是控制谐波的数量和比例的振幅,因此提单=[提单1,。 ,Bl R], which is free from the fundamental frequency and amplitude, exactly represents the timbre of a sound. In this paper, these coefficients are used to represent the harmonic structure of a sound. Average Harmonic Structure and Harmonic
结构的稳定性定义如下模型音乐信号和测量谐波结构的稳定性。
谐波结构提单,提单我是谐波结构系数:
图像
唯有通过和高速钢是提单的均值和方差。因为多数乐器的音色稳定,提单不同在不同的帧音乐信号,观众是一个很好的模型来表示音乐信号。相反提单,提单不同的声音信号和对应的高速钢比这大得多的音乐信号。

c .二阶统计措施方法[7]

这个方法[5],mono-Gaussian模型[3]的基础上,使用一些措施相似,被称为二阶统计措施(SOSM)。使用这些措施以识别演讲者在语音信号的每一部分。
两个措施(μGC0.5andμG0.5)使用这实验。的声音分类,测量的相似率μGc0.5许可有想法考虑声音的类型。
If μGc 0.5 [Threshold_minj, Threshold _maxj] 然后 我们 识别 声音 视为 « j ».where, 类型
Threshold_minj = min(μGc0.5(演讲,soundf))
Threshold_maxj = max(μGc0.5(演讲,soundj))
在那里,“声音”这个词表示一组相同类型的声音。和“演讲”表示一组参考扬声器。J代表一个特定的声音属于一个特定的类“J”。

d .正弦参数基于音频分类[8]

语音信号包含周期和非周期信息由于事件的自然冲动或“noiselike”过程发生在无声的地区。结果,我们可以写一段时间窗口的基本观察音频信号如下:
图像
其中 n = 1 ,…,Ns 是 示例 index, θ= ( al,fl , l ) 表示 正弦 参数 包括 amplitude, frequency, 和 阶段 的 11 届 正弦 component, respectively, L signal, 中的 正弦 组件 的 数量 和  (n) 观测 噪声 建模 为 一 个 zero-mean, 添加剂 Gaussian 噪音 sequence. 吗一般来说,它是感兴趣的频率估计相应的正弦参数包括fl,振幅,阶段∅l和正弦曲线,图1 l .[8]显示的基本框图FDMSM的过程模型。然而,图2显示了框图的音频分类系统[8]。
图像
为提取正弦参数包括振幅和频率相关的某些Mel-bands,修改版本of-the-state-of-the-art正弦模型也称为固定尺寸修改正弦模型(FDMSM) [16]。
的正弦分析使用FD-MSM方法我们到达三重特点为每次窗框:
图像
进一步在特征选择是为了找到的最小子集用无监督方法作为预处理的原始特性。

第四,讨论结果

答:独立分量分析[9]

ICAexperimental结果如图3所示[9]。观测到的混合信号如图4所示[9]。原始语音信号呈现在图3和混合信号装具所示。ICA算法恢复的数据图3只使用装具的数据。
图像

b .谐波结构稳定性分析(4、5)

在图5中(4、5),它可以seenthat混合物分离。音乐和声结构和相应的音乐之间的距离都赋予很小(平均距离是0.01和0.006在实验1和2,分别),和语音谐波结构和音乐之间的距离都赋予更大(平均距离是0.1和0.13在实验1和2,分别)。所以,音乐已经是一个很好的模型和对声音和音乐分离信号表示。
图5还显示了语音增强语音增强结果的软件试图估计噪声的频谱在暂停谱减法的语音,提高语音。
图像

c .二阶统计措施方法[7]

这个方法有两个目的:首先,语言之间的歧视和其他的声音;其次的分类根据不同的音响声音μGc值,作为衡量相似,相应的每个声音。例如,如果μGc内(2.52 - 4.92)然后我们可以状态,鉴于音乐应该声(表1).Table 1[7]根据μGc范围显示分类的声音。
图像

d .正弦参数基于音频分类[8]

在这种方法中,假设年代(k)是当前语音帧的频谱。完成峰值挑选过程8 msec跳大小选择。它有固定数量的正弦参数并保存合成质量尽可能接近原始信号的感知。这导致显著减少以及更好的聚类性能。表2[8]表明混合型音频分类精度。
图像
仿真结果是开明的,使用这样的正弦参数随着所谓的SVM分类器,将成功地提高该分类的性能。图6[8]显示边界的决定使用SVM [8]。
图像

诉的结论

信号分离是一个很困难的问题,但没有可靠的方法可用于一般情况下。详细研究音频信号的所有作品进行分离我们得出的结论是,谐波结构特点是有效的对别人,因为它保留了音频质量。此外,大多数乐器声音的谐波。音乐信号的谐波结构是稳定的。音乐信号的谐波结构由不同的仪器是不同的。所以,我们可以很容易的和独立的不同信号进行分类。然而,这种算法对非调和工具不起作用,比如一些鼓。有些节奏跟踪算法可以用来单独的鼓声。
预处理技术如正弦参数方法和SOSM方法也使我们得出的结论是,选择的特征是一个重要的一步研究领域特别是在音乐。这就是为什么需要选择最有效和准确的特性对音频分类来说是至关重要的。像SVM分类器被证明是最好的分类器,因为它们比其他虽然可能会得到更准确的贸易的运行时间。

引用

  1. j . Pinquier j . Rouas, r . a . Obrecht“健壮的语音/音乐分类在音频文件,“国际ConferenceOn口语处理(ICSLP), 2005 - 2008年,2002页。
  2. g·r·奈克和d·k·库马尔”独立分量分析的概述及其应用”,Informatica 35页。63 - 81年,2011年。
  3. p . Vanroose言论“盲源分离和背景音乐来提高语音识别”,24日研讨会的信息理论,2003年5月,页103 - 108。
  4. y . g . Zhang和c . s . Zhang Stabilty”分离的声音和音乐的和声结构分析”,多媒体和世博会,ICME 2005 pp.562 - 565, 2005。
  5. y . g . Zhang和c . s .张“音乐信号的谐波分离结构建模”,少量的酒,2005年。
  6. p . m . b . Mahalel m . Rashidi k·法耶兹,可并A Sayadiyan”一个新的基于svm混合音频分类”,少量的酒,2004年。
  7. h . Sayoud s Ouamour“统计歧视和识别一些声听起来”,海湾合作委员会(GCC)会议,pp。1 - 5日,2006年。
  8. p . MowlaeeBegzadeMahale a Sayadiyan, k法耶兹“混合类型的音频分类使用正弦参数”可并,第三信息和通信技术国际会议(ICTTA), 2008年。
  9. 答:Hyvarinen和大肠Oja“独立分量分析:算法和应用程序”,13卷,2000页,411 - 430年。
  10. a . Ozerov·菲利普·f·Bimbot, r . Gribonval”改编的贝叶斯模型对单通道源分离及其框架分离语音/音乐在流行歌曲”,IEEE音频,演讲,和语言的处理,Vol.15,问题:5页。1564 - 1578年,2007年。
  11. 美国Koval、m . Stolbov和m . Khitrov“宽带噪音消除系统:新方法性能优化工作,“在EUROSPEECH 99,第2610 - 2607页,1999。
  12. g . j .张成泽和t·w·李”,概率日常单通道盲信号分离,“捏,2003。
  13. 庄y, y, y,“流行音乐检索通过独立分量分析,”在ISMIR, 281 - 282年,2002页。
  14. Anssiklapuri和曼努埃尔·戴维“转录信号处理方法”,施普林格科学,6 - 9,2006页。
  15. f . BIMBOT MAGRIN-CHAGNOLLEAU, et l . MATHAN 1995 text-independent广播公司识别“二阶统计措施”。言语交际,数量,体积。17日1 - 2,页177 - 192,1995年8月。
  16. 美国z,“基于内容的音频分类和检索所使用的最近邻特征线法”,IEEE语音和音频处理事务,8卷,问题:5,页619 - 6252000。
全球技术峰会