所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

一种基于Ica策略C分类的语音分离方法

Y.D.Chandramouli1, Dr.P.Sailaja2
  1. 印度哥达瓦里工程技术学院电子与通信工程系学生
  2. 印度哥达瓦里工程技术学院电子与通信工程系教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

单耳对话分裂是一个公认的过程。为了解决这一问题,现代研究采用监测分类方法估计理想二进制覆盖(IBM)。在监督学习结构中,概括不同于教练的条件的问题是最重要的。本文提出了一种只需要少量训练语料库且可以推广到不可见环境的技术。该程序使用辅助向量机来理解类别提示,然后运行重阈值技术来计算IBM。采用提交拟合方法对不可见信噪比情况进行推广,采用以声动作识别为中心的变分方法对不可见噪声情况进行推广。有方法的评估显示,推荐的策略在不可见的情况下产生了高质量的IBM评估。因此,本文提出了一种基于独立分量分析(ICA)的单通道语音增强算法,通过构建观测信号和噪声信号,实现单通道语音降噪,从而实现噪声和原始语音的分离。仿真结果表明,该算法具有较好的峰值信噪比(PSNR)和去噪效果。

介绍

虽然自动对话识别在日常生活中已经变得有用和现实,以及其他现代、技术、创新、对话、识别的重要推动因素,但精度远远不足以保证恒定的效率。当言语接触到防腐剂时,它可能会严重恶化。尽管会话可能会经历各种各样的现象,但本文所描述的工作提出了鲁棒语音识别中最具挑战性的问题之一:只有一个信息方向的干扰会话指示犯罪。这个问题特别具有挑战性,因为所需对话指示的声学特征很容易与干扰掩盖指示的声学特征相混淆,并且因为与音频资源位置相关的有用细节不能仅从一个方向获得。本文的目标是结合干扰会话恢复部分会话的焦点,并利用恢复的会话指示提高识别精度。虽然我们将通过混合几种时间特征来实现这一点,但主要的新策略将是操纵直接频率,以暴露复杂聆听场的实际谐波成分。该算法利用短时间傅里叶研究,从每个窄带正则性方向提取即时正则性。基于瞬时频率的对感跨通道连接是根据您的能量和努力的每个周期获得的,并且被认为是典型资源的一部分的规律性元素组最初是根据它们的相互相互相关性确定的。在论文中,提出了几种能够获得更好的即时正则性报告的技术。验证了传统算法和图切算法对实际谐波结构识别的有效性。 As a supporting means to increase the greatest efficiency, a computationally efficient test for voicing is recommended. Presenter recognition and message recognition are also presented to improve further the greatest efficiency.
根据组合警报中选择的元素,利用逆短时间傅里叶研究进行更新,最终获得指示焦点的计算。评估了在语音对语音掩盖情况下所获得的识别精度,并与使用先前方法的会话识别系统的相应效率进行了比较。混响对结果的重要性取决于标准的方案。对于ASR这样的程序来说,由于许多会话数据库不能满足混响会话的要求,因此产生的失真可能是不必要的。然而,Zurek指出,混响对已识别音频的音色和空间特征有重要影响。因此,混响可能是必不可少的程序,如收听现场重建(即分裂和后续调整或重新配置空间收听对象)。由于有这么多潜在的资源分割应用程序,每个应用程序都有一点不同的规范,因此评估过程继续与应用程序分离,并保持对哪些技术可能在评估中的共同理解是很重要的。此外,在考虑混响情况时,适合用一种测量方法来评估算法在混响情况下的分裂效率,而不评估混响对结果的影响。最近的一项研究推荐了一种评估回响对话分离的方法。这种测量方法被称为直接路径、早期反射和焦点和掩蔽物的混响(DERTM),测量的是即时音频的减少,开始的洞察力和焦点和干扰似乎的后期混响。 This is because suppressing delayed reverberation is an essential objective for a binary mask if human efficiency in conversation intelligibility is to be obtained.
该指标被证明对回响对话非常有效,但这限制了它的程序,因为对话实际上并不是可能需要产生的唯一信号(音乐设备分裂也是一个典型的任务)。此外,它还象征着可解性是资源分割的最大目标,如上所述,情况可能是这样,也可能不是这样。资源分割算法的一个典型目标是计算IBM,这也是Wang为计算监听现场研究(CASA)提出的目标。

现有的方法

采用IBM作为计算目标,我们可以将声音分割精确地描述为二进制范畴。推荐了一种用于IBM评估的开始监视类别策略,尽管该策略使用双耳特征进行会话分割。许多研究在单耳领域实现了IBM评估的二元分类。处理频谱图中干扰元素的识别作为一个贝叶斯分类问题,健壮的自动会话识别。Weiss和Ellis利用相关的矢量小工具对T-F设计进行分类。Jin和Wang利用多层感知器(MLP)使用基于音调的特征对T-F单元进行分类。该方案在混响环境下取得了良好的分离效果。Kim et al.[20]使用高斯组合设计(GMM)来了解目标主导和干扰主导设计的振幅调制变化(AMS)特征的提交,然后用贝叶斯分类对T-F单位进行分类。他们的分类器使听力正常的听众的语音清晰度得到了提高。Kim和Loizou进一步推荐了一步一步的训练程序,以提高对话的可理解性,从一个小的初始设计开始,随着更多数据的获得而更新设计因素。 We recommended a assistance vector machine (SVM) centered program and used both pitch-based and AMS features to categorize T-F designs simplest way of design category is binary (or 2 class) design classification. Cognitive stereo represents wi-fi architectures in which a interaction program does not function in a set allocated group, but rather searches and discovers an appropriate group in which to function. This symbolizes a new paradigm for variety usage in which new gadgets can opportunistically feed on groups that are not being used at their moment and place for their main purpose [5].
图像
主程序可能有一个易受额外干扰的接收者,同时主信号在传送到附加用户的途中被遮蔽。然而,基本的理论问题仍然存在,即设计一个现实的智能立体程序的实际规范,以便它们不干扰主要用户。展示智力接受者所经历的交易和困难。特别是,为了确保与主要客户的不干扰而不被限制到非常低的传输能力,智能立体声程序需要能够识别非常差的主警报的存在。此外,我们表明,如果立体声有一个有限的强大的反馈变化,矩传感器的基本边界将成为任何可能的传感器的硬限制。本文提出的方法只需要一个小的训练语料库,可以推广到未知的条件。这是受到实际维度的启发,这些维度显示大多数已分配的种类都未得到充分利用。对于任何智能立体声程序来说,最重要的因素之一是保证它不会干扰主传输。为了能够提供这样的保证,一个智能立体程序显然应该能够识别主指示的存在,而它可能会被严重跟踪。这是一期《看不见的国际机场》杂志。
图像
提出的分离方法2.1正弦模型每个呈现let用sj(n)表示,其中j[1,2],它们的组合用z(n)表示,其中n = 0,1。,N−1为时间示例目录,其中N为示例中的窗口持续时间。正弦建模与参数估计我们考虑了无约束正弦设计的两种变体。我们创建的变量如下所示;1)考虑个体听力程序的对数敏感性,将谱系数转换为Mel范围;2)在每个Mel组中,选择丰度最大的谱峰。利用这两个基本原理作为我们的正弦参数评估概念,我们发现每组一个最优值,并最终为每个扬声器信号或它们的组合提供3个M × 1的丰度、规律性和级向量。我们根据实际扬声器的无约束正弦因子及其组合得到混合估计量。在上一节中进行的研究表明,当出现卷积干扰时,依赖于信噪比的分析不能为给定的二进制掩盖提供常规排名。因此,发现一种测量方法是合适的,它可以为给定的二进制掩盖单独的卷积扰动提供一致的分数。因此,如果计算IBM是利用二进制覆盖的资源分离算法的目标,那么量化测量覆盖的完美程度的测量应该是一个合适的选择。 Furthermore, findings created by Li and Loizou point out that the design of the binary cover up is more essential for speech intelligibility than the regional SNR of each T–F device because the pattern of the cover up may help to their research confirmed a powerful negative correlation between binary cover up mistake and conversation intelligibility. This implies that, at least for anechoic conversation, calculating the binary mask error can estimate the conversation intelligibility of a binary cover up. When evaluating the perfect and measured covers, each T–F unit from the measured cover up can be immediate hearing interest. This indicates that the measurement should consider the design of the cover up without weighting the efforts of each T–F device according to its regional SNR. Such a measurement was suggested by Hu and Wang. Their metric assesses segmentation efficiency and is depending on a measurement proposed by Machine etal.For evaluating picture segmentation. Hu and Wang’s measurement analyzes perfect sections with measured
部分。因此,在他们的战略中,有几个比较的结果;section可以被识别为:
正确:测量的部分和完美的部分相当重叠
欠分段:测量的分段包括两个或两个以上的理想分段
过分段:一个完美的分段包含两个或两个以上的计算段
不匹配:被测截面相当大程度上包含了一个T-F区域。
缺失:被测截面绝对包括一个属于完美资格的T-F区域。
然而,并非所有方法都以这种方式利用分割,因此这种测量可能不适用于所有方法。Li和Loizou进行的上述研究证明了二元掩盖错误对对话可理解性的影响,即两种方法中的一种是适当的(如果它适合完美面具中的相应设备)或错误的。在最坏的情况下,完美焦点被错误地识别,可能会导致对资源设备的基本焦点对结果没有贡献。在最严重的情况下,完全限定符被错误地识别可能导致资源被干扰或其他干扰所掩盖。Li和Loizou发现,对于会话的可理解性来说,不正确的警觉错误比跳过错误更有害。
图像
对于这两种错误在其他程序中的后果,还没有发现科学证据,但每种错误的相对重要性很可能是具体应用程序的,跳过错误在某些应用程序中更重要,会话可理解性不是主要目标。因此,为了确定测量,并保持其程序的自由,这两个错误在这里计算相似。可以观察到,可以通过修改错误权重来适应特定的程序,使其更适合于任何一种错误类型。因此,建议将完美二进制掩盖率(IBMR)作为评估使用二进制掩码的资源分离方法的度量。IBMR是一种定制的、通用的二进制掩码误差或标记精度的方法。IBMR根据其与IBM的对应关系,而不是评估重新合成的结果,在[0,1]期间为掩盖提供了直观的评分。

该方法

独立成分分析(ica):独立分量分析(ICA)最初是为了解决通过未知矩阵A(图1)线性混合后恢复独立源信号(如音乐、语音、不同的声音和噪声源)的盲信号或源分离问题而提出的。只有N个不同的记录混合物,但对混合过程或源一无所知。该任务是通过找到一个方阵W,指定线性反转混合过程的空间滤波器,即U=WX,来恢复原始源的版本S,除了缩放和排列U之外是相同的。Bell和Sejnowski(1995)提出了一种简单的神经网络算法,利用infomax盲分离独立源的混合物。他们表明,最大化神经处理器输出的联合熵H(y),可以最小化输出组件之间的相互信息。根据它们的符号,每个输入向量x(t)表示t时刻所有输入通道记录的可观测向量。因此执行联合熵最大化。

ICA应用于语音信号:

独立分量分析试图将一个多元信号分解成多个独立的非高斯信号。例如,声音通常是一种信号,它是由几个来源的信号在每次时间t上的数值相加而成。主要的问题是是否有可能将这些贡献源从观测到的总信号中分离出来。当统计独立性假设正确时,盲源ICA分离原始信号与噪声信号相结合,可以得到很好的结果。它也用于分析不应该由混合产生的信号。ICA的一个重要应用是鸡尾酒会问题,当两个或两个以上的人同时在一个房间里说话时,如果要通过消除看不见的噪音来清楚地找出个人的讲话。同时,假设无回波或无时延,可以简化问题。需要考虑的一个重要注释是,如果存在N个源,至少需要N个观测(例如麦克风)来恢复原始信号。这构成了平方情况(J = D,其中J是模型的维数,D是数据的输入维数)。其他未测定(j>d)和过测定(J < D)的病例也进行了研究。
因此,对原始语音和噪声语音的组合信号进行ICA分离可以得到很好的结果,这取决于两个假设:1)源信号必须彼此独立。2)每个源信号中的值具有非高斯分布。
图像
图像
y是一个高斯随机变量,与x的协方差矩阵相同
图像
负熵的近似值是
图像
在用信号写的《独立分量分析》一书的第131页可以找到证明。(他们为ICA贡献了大量的作品)。这种近似也遇到了峰度(对异常值敏感)同样的问题。还开发了其他方法。
图像
选择G1和G2
图像
峰值信噪比,通常缩写为PSNR,定义为信号的最大可能功率与影响其表现保真度的破坏噪声的功率之间的比率。通常,PSNR是用对数十进制刻度表示的
图像
PSNR(单位:dB)定义为:
图像
应用于EEG信号的ICA:
ICA解决了一个不同于大脑激活定位的问题,因为该方法提供了一个神经源何时活跃的信息,而不是它在哪里。然而,ICA方法确实提供了每个神经源产生的固定电场的头皮分布(Makeig et al,1997)。

实验结果

图像
图1:原话
图像
fig2:混合语音
图像
图3:误差信号
图像
图4:ICA输出语音

比较

实验结果表明,该方法在峰值信噪比(PSNR)方面优于常规方法。因此,与之前的方法相比,信噪比提高了10 db到15 db。

结论

本文提出了一种完全可扩展的异构结构,用于ICA分类的加速。本文提出的方案提高了信噪比,在不可见噪声条件下可以获得干净的输出语音。此外,我们提出的方法将信噪比提高了10db到15db,因此使用ICA分类可以获得更好的峰值信噪比(PSNR)。对不同类型的混合信号进行了评价,结果表明,该技术消除了噪声,得到了原始语音信号。

数字一览

图1 图2 图3
图1 图2 图3

参考文献









全球科技峰会