ISSN在线(2319 - 8753)打印(2347 - 6710)
Vinayak d . Chavan先生1桑杰l . Nalbalwar博士2
|
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术
音频分类是一个特定类分配给一个音频信号的过程。分类的音频信号在数字图书馆领域的许多应用程序,自动组织的数据库等。在过去的几年一直在努力开发不同的方法从音频信号中提取信息,以便他们可以存储、组织和检索自动时必需的。在这个工作中,音频信号分为基于光谱的不同类别和时间特性。在这个方法中,音频信号最初分解成帧重叠。集成经验模态分解(EEMD)噪声辅助数据分析方法,用于将这些帧转换为一组带限函数称为固有模式函数(货币)。时间和光谱特性,然后从这些货币,使用高斯混合之后进行分类模型(GMM)分类器。不同组合的特性测试创建的特征向量。实验结果显示,超过80%的准确性。
关键字 |
固有模态函数,合奏经验模态分解、光谱和时间特性,高斯混合模型。 |
介绍 |
在过去十年里大量的多媒体数据的文本、图像、音频和视频已经成为可用。与使用的不断增加(音频数据和所面临的挑战不同的多媒体应用,它已成为必不可少的把精力投入到音频信号分析。一个音频信号分类系统应该能够分类不同的音频输入格式。尤其是检测音频信号的类型(干净的演讲,演讲与环境背景噪声,和语言与音乐)等新的应用程序允许自动音频数据库,组织分割音频流的智能信号分析、智能音频编码、自动带宽分配,自动均衡、自动控制声音的动态等等。所有分类系统使用一组特性的提取从输入信号。在我们的方法从信号中提取特征,这样他们歧视能力增加。 |
我们这篇文章的其余部分组织如下:第二节给出了这个领域的相关工作。提出的方法是在第三节,我们描述了EMD和EEMD技术。第四节描述了常用的功能分类和高斯混合模型分类器的基本概念。数据库用于实验和实验结果提出了第五节。我们在第六节总结与结论和未来的工作。 |
二世。相关工作 |
五个音频类:沉默、演讲、音乐、语言与音乐和语言使用特征提取与噪声分类矩阵[1]。交通噪声源的分类:摩托车、汽车和重型卡车制造[2]通过使用光谱特性,如频谱质心,光谱碾轧,子频带能量比和讨论二阶导数过零率作为时序特性。在[3]中四种类型的背景噪音来源进行分类使用经验模态分解方法与精度高达80 - 85%。语音和音乐信号分类使用EMD[7], 85 - 90%的准确率。三个代表场音色纹理特性集,有节奏的音乐信号的内容和音高提出和评估使用统计模式识别分类器的准确率达到了61%十音乐流派分类[9]。 |
在本文中,我们提出了一个音频类型识别方法,干净的演讲,演讲与噪音和音乐依赖于时间和光谱形状特性。嘈杂的演讲又分为五个子类作为机场,胡言乱语,车站,火车和街头[3],[4]。音乐又分为摇滚,流行,爵士,和迪斯科舞厅。在这个实验中,输入信号按层次分解的整体经验模态分解(EEMD) [6], [7]。给定信号分解成一系列固有模态函数(货币)和残留。从货币和残渣的特性计算。各种功能的性能从imf的评估使用高斯混合模型分类器。 |
三世。提出的方法 |
2.1经验模态分解 |
经验模态分解(EMD)的特征提取方法。相比其他方法是有利EMD是一种自适应数据分析方法,是基于局部特征的数据,因此,更有效地捕获非线性,非平稳振荡。EMD方法可以将一个复杂的信号分解成一系列的固有模态函数(IMF)和残留物。[6],[7]。 |
2.1.1固有模态函数 |
EMD将原始信号分解成一组可定义的自适应函数称为固有模态函数的基础。每个IMF必须满足两个基本条件:在整个数据集,局部最小值或最大值和零交叉的数量必须相等或者他们最多可能有所不同。在任何时候,信封的平均值,定义的上包络线和较低的其他信封是零。生成imf的筛选过程。信号分解,直到我们得到最终的组件作为残留。 |
1。识别所有x (t)的极值。 |
2。插入当地极大值形成一个信封上u (t)。 |
3所示。插入局部最小值形成一个较低的信封l (t)。 |
4所示。计算平均信封:m (t) = [u (t) + l (t)) / 2。 |
5。从信号中提取的意思是:h (t) = x (t) - m (t) |
6。如果h (t)满足国际货币基金组织的条件,阻止其他筛选筛选。 |
2.2集成经验模态分解 |
EMD是任何白色的二元滤波器组noise-only系列中,当数据是间歇;二元属性通常是妥协。因此,添加噪声的数据可以提供均匀分布的参考范围。这使EMD修复受损二元属性;和相应的货币不同系列的噪声相互没有关联。因此,意味着相应的货币不同的白噪声序列很可能相互抵消[8]。这些属性的EMD, EEMD开发如下: |
1。白噪声序列添加到目标数据。 |
2。添加了白噪声的数据分解成货币基金。 |
3所示。一次又一次地重复步骤1和步骤2,但每次都用不同的白噪声序列。 |
4所示。获得相应的(整体)意味着首先分解的最终结果。 |
第四,特征提取和分类 |
特征提取是任何音频信号分类的主要步骤为一个给定的类[5]。这些特性将决定信号的类。特征提取包括输入信号的分析。特征提取技术可以分为时序分析和光谱分析技术。时序分析使用音频信号的波形本身进行分析。时间特性包括短时自相关函数(ACF),短时间内能量(STE)和零交叉率(ZCR)。音乐信号的光谱分析利用光谱表征进行分析。光谱特性包括频谱质心(SC)、光谱辗轧(SR)和谱通量(SF) [9]。使用这些特性,形成特征向量,然后应用到分类的分类器。在我们的实验中我们使用高斯混合模型与最大似然分类器。 |
3.1高斯混合模型(GMM) |
gmm模型的分布特征向量。对于每个类,我们假设的存在概率密度函数表示为若干多维高斯分布的混合物。迭代期望最大化(EM)算法通常是用来估计参数为每个高斯组件和混合权重。gmm已广泛用于分类器通过使用最大似然准则找到模型最适合一个特定的音频[6]。 |
诉的实验和结果 |
在实验中,我们有音频信号分为三个主要类:干净的演讲,演讲与背景噪音和音乐。然后再吵闹的语音信号分为五类:机场,胡言乱语,车站,火车和街道。音乐信号分为四类:流行音乐、摇滚、爵士乐和迪斯科舞厅。这个实验我们选择数据集组成的30干净语音信号,150吵了语音信号和120音乐信号2 - 5秒的持续时间长。吵闹的演讲由一个类型的噪声与语音混合不同的话语。给定信号首先划分为50毫秒的帧持续时间和25 ms每一帧之间的重叠。然后每一帧分解成货币基金使用集成经验模态分解。这些货币基金用于提取不同的特征如前所述在第三节。如果“N”没有。一个信号的帧然后意味着特定功能的帧被认为是该信号的特征之一。 |
在“r”表示功能没有。和“我”表示框架。一个特殊的信号。我们从这些特性形成了然后申请分类特征向量。 |
‘v’在哪里没有信号。,“m”国际货币基金组织(IMF)没有。和“r”特性是否定的。特征向量是由每个音频结合不同的功能类别,然后使用GMM与最大似然分类器进行分类。分类的结果有很好的准确性提出如下。别人不像精度提出了不是很好。 |
从上面的结果很明显,个人特性,比如ZCR, STE可以区分语音和音乐。所有的音乐样本正确识别。但在演讲与噪声和语音识别、准确性相当少。因此,不同的功能组合测试,发现精度可以达到100%。 |
音乐信号与不同类型非常相似。因此,个人特性是不够的对所有的类型进行分类。从上面的结果,很明显观察到获得精度高达92%,很好。 |
噪声信号分类是很重要的,以防扬声器/语音识别。如表3中观察到,背景噪音的来源,与功能组合,可以分类准确率超过90%,这很好。也观察到,前国际货币基金组织可以区分指定的类具有良好的精度。其他货币也进行分类检测,但精度小于IMF1的准确性。因此,结果对其他货币没有提到。 |
六。结论 |
自动音频分类是一个复杂的和有问题的任务,但仍在研究和商业化应用都具有重要的价值。在本文中,我们介绍了使用EEMD将信号分解为不同类型的音频分类的不。首先,提取光谱和时间特性,从这些货币。使用选定的值特性形成特征向量通过结合不同的特性,然后分类。实验结果表明,EEMD可以成功地用于不同类型的音频分类是否语音/音乐分类、环境噪声分类或音乐流派分类准确性超过85%。为未来的工作,可以提炼出不同种类的特性和各种分类器也可以用来提高准确性。音频信号的长时间可以用来获取更准确的classification.c |
引用 |
|