介绍 |
虽然自动对话识别在日常生活中已经变得有用和现实,以及其他现代、技术、创新、对话、识别的重要推动因素,但精度远远不足以保证恒定的效率。当言语接触到防腐剂时,它可能会严重恶化。尽管会话可能会经历各种各样的现象,但本文所描述的工作提出了鲁棒语音识别中最具挑战性的问题之一:只有一个信息方向的干扰会话指示犯罪。这个问题特别具有挑战性,因为所需对话指示的声学特征很容易与干扰掩盖指示的声学特征相混淆,并且因为与音频资源位置相关的有用细节不能仅从一个方向获得。本文的目标是结合干扰会话恢复部分会话的焦点,并利用恢复的会话指示提高识别精度。虽然我们将通过混合几种时间特征来实现这一点,但主要的新策略将是操纵直接频率,以暴露复杂聆听场的实际谐波成分。该算法利用短时间傅里叶研究,从每个窄带正则性方向提取即时正则性。基于瞬时频率的对感跨通道连接是根据您的能量和努力的每个周期获得的,并且被认为是典型资源的一部分的规律性元素组最初是根据它们的相互相互相关性确定的。在论文中,提出了几种能够获得更好的即时正则性报告的技术。验证了传统算法和图切算法对实际谐波结构识别的有效性。 As a supporting means to increase the greatest efficiency, a computationally efficient test for voicing is recommended. Presenter recognition and message recognition are also presented to improve further the greatest efficiency. |
根据组合警报中选择的元素,利用逆短时间傅里叶研究进行更新,最终获得指示焦点的计算。评估了在语音对语音掩盖情况下所获得的识别精度,并与使用先前方法的会话识别系统的相应效率进行了比较。混响对结果的重要性取决于标准的方案。对于ASR这样的程序来说,由于许多会话数据库不能满足混响会话的要求,因此产生的失真可能是不必要的。然而,Zurek指出,混响对已识别音频的音色和空间特征有重要影响。因此,混响可能是必不可少的程序,如收听现场重建(即分裂和后续调整或重新配置空间收听对象)。由于有这么多潜在的资源分割应用程序,每个应用程序都有一点不同的规范,因此评估过程继续与应用程序分离,并保持对哪些技术可能在评估中的共同理解是很重要的。此外,在考虑混响情况时,适合用一种测量方法来评估算法在混响情况下的分裂效率,而不评估混响对结果的影响。最近的一项研究推荐了一种评估回响对话分离的方法。这种测量方法被称为直接路径、早期反射和焦点和掩蔽物的混响(DERTM),测量的是即时音频的减少,开始的洞察力和焦点和干扰似乎的后期混响。 This is because suppressing delayed reverberation is an essential objective for a binary mask if human efficiency in conversation intelligibility is to be obtained. The metric is shown to be very effective for reverberated conversation, but this limits its program, since conversation is not actually the only signal that might need to be produced (musical device splitting is also a typical task). Furthermore, it symbolizes that intelligibility is the greatest objective for resource splitting, which, as mentioned above, may or may not be the case. A typical objective for resource splitting algorithms—and the goal proposed for computational listening to field research (CASA) by Wang —is to calculate the IBM. |
现有的方法 |
采用IBM作为计算目标,我们可以将声音分割精确地描述为二进制范畴。推荐了一种用于IBM评估的开始监视类别策略,尽管该策略使用双耳特征进行会话分割。许多研究在单耳领域实现了IBM评估的二元分类。处理频谱图中干扰元素的识别作为一个贝叶斯分类问题,健壮的自动会话识别。Weiss和Ellis利用相关的矢量小工具对T-F设计进行分类。Jin和Wang利用多层感知器(MLP)使用基于音调的特征对T-F单元进行分类。该方案在混响环境下取得了良好的分离效果。Kim et al.[20]使用高斯组合设计(GMM)来了解目标主导和干扰主导设计的振幅调制变化(AMS)特征的提交,然后用贝叶斯分类对T-F单位进行分类。他们的分类器使听力正常的听众的语音清晰度得到了提高。Kim和Loizou进一步推荐了一步一步的训练程序,以提高对话的可理解性,从一个小的初始设计开始,随着更多数据的获得而更新设计因素。 We recommended a assistance vector machine (SVM) centered program and used both pitch-based and AMS features to categorize T-F designs simplest way of design category is binary (or 2 class) design classification. Cognitive stereo represents wi-fi architectures in which a interaction program does not function in a set allocated group, but rather searches and discovers an appropriate group in which to function. This symbolizes a new paradigm for variety usage in which new gadgets can opportunistically feed on groups that are not being used at their moment and place for their main purpose [5]. |
|
主程序可能有一个易受额外干扰的接收者,同时主信号在传送到附加用户的途中被遮蔽。然而,基本的理论问题仍然存在,即设计一个现实的智能立体程序的实际规范,以便它们不干扰主要用户。展示智力接受者所经历的交易和困难。特别是,为了确保与主要客户的不干扰而不被限制到非常低的传输能力,智能立体声程序需要能够识别非常差的主警报的存在。此外,我们表明,如果立体声有一个有限的强大的反馈变化,矩传感器的基本边界将成为任何可能的传感器的硬限制。本文提出的方法只需要一个小的训练语料库,可以推广到未知的条件。这是受到实际维度的启发,这些维度显示大多数已分配的种类都未得到充分利用。对于任何智能立体声程序来说,最重要的因素之一是保证它不会干扰主传输。为了能够提供这样的保证,一个智能立体程序显然应该能够识别主指示的存在,而它可能会被严重跟踪。这是一期《看不见的国际机场》杂志。 |
|
提出的分离方法2.1正弦模型每个呈现let用sj(n)表示,其中j[1,2],它们的组合用z(n)表示,其中n = 0,1。,N−1为时间示例目录,其中N为示例中的窗口持续时间。正弦建模与参数估计我们考虑了无约束正弦设计的两种变体。我们创建的变量如下所示;1)考虑个体听力程序的对数敏感性,将谱系数转换为Mel范围;2)在每个Mel组中,选择丰度最大的谱峰。利用这两个基本原理作为我们的正弦参数评估概念,我们发现每组一个最优值,并最终为每个扬声器信号或它们的组合提供3个M × 1的丰度、规律性和级向量。得到了混合估计量 |
取决于实际扬声器的无约束正弦因子及其组合。在上一节中进行的研究表明,当出现卷积干扰时,依赖于信噪比的分析不能为给定的二进制掩盖提供常规排名。因此,发现一种测量方法是合适的,它可以为给定的二进制掩盖单独的卷积扰动提供一致的分数。因此,如果计算IBM是利用二进制覆盖的资源分离算法的目标,那么量化测量覆盖的完美程度的测量应该是一个合适的选择。此外,Li和Loizou的发现指出,二元掩盖的设计对于语音可理解性比每个T-F装置的区域信噪比更重要,因为掩盖的模式可能有助于他们的研究证实二元掩盖错误和对话可理解性之间存在强大的负相关关系。这意味着,至少对于无回声会话,计算二进制掩码误差可以估计二进制掩码的会话可解性。当评价完美和测量覆盖物时,每个T-F单位从测量覆盖物上可以立即引起人们的兴趣。这表明测量应考虑覆盖的设计,而不根据每个T-F器件的区域信噪比来加权其努力。这种测量方法是胡和王提出的。他们的度量评估分割效率,并依赖于Machine etal提出的度量。用于评估图像分割。 Hu and Wang’s measurement analyzes perfect sections with measured |
部分。因此,在他们的战略中,有几个比较的结果;section可以被识别为: |
正确:测量的部分和完美的部分相当重叠 |
欠分段:测量的分段包括两个或两个以上的理想分段 |
过分段:一个完美的分段包含两个或两个以上的计算段 |
不匹配:被测截面相当大程度上包含了一个T-F区域。 |
缺失:被测截面绝对包括一个属于完美资格的T-F区域。 |
然而,并非所有方法都以这种方式利用分割,因此这种测量可能不适用于所有方法。Li和Loizou进行的上述研究证明了二元掩盖错误对对话可理解性的影响,即两种方法中的一种是适当的(如果它适合完美面具中的相应设备)或错误的。在最坏的情况下,完美焦点被错误地识别,可能会导致对资源设备的基本焦点对结果没有贡献。在最严重的情况下,完全限定符被错误地识别可能导致资源被干扰或其他干扰所掩盖。Li和Loizou发现,对于会话的可理解性来说,不正确的警觉错误比跳过错误更有害。 |
|
对于这两种错误在其他程序中的后果,还没有发现科学证据,但每种错误的相对重要性很可能是具体应用程序的,跳过错误在某些应用程序中更重要,会话可理解性不是主要目标。因此,为了确定测量,并保持其程序的自由,这两个错误在这里计算相似。可以观察到,可以通过修改错误权重来适应特定的程序,使其更适合于任何一种错误类型。因此,建议将完美二进制掩盖率(IBMR)作为评估使用二进制掩码的资源分离方法的度量。IBMR是一种定制的、通用的二进制掩码误差或标记精度的方法。IBMR根据其与IBM的对应关系,而不是评估重新合成的结果,在[0,1]期间为掩盖提供了直观的评分。 |
该方法 |
独立分量分析(INDEPENDENT COMPONENT ANALYSIS, ICA):独立分量分析(INDEPENDENT COMPONENT ANALYSIS, ICA)最初是为了解决独立源信号(如音乐、语音、不同的声音和噪声源)经过未知矩阵A线性混合后恢复的盲信号或源分离问题(图1)。只有N个不同的记录混合物,但对混合过程或源一无所知。该任务是通过找到一个方阵W,指定线性反转混合过程的空间滤波器,即U=WX,来恢复原始源的版本S,除了缩放和排列U之外是相同的。Bell和Sejnowski(1995)提出了一种简单的神经网络算法,利用infomax盲分离独立源的混合物。他们表明,最大化神经处理器输出的联合熵H(y),可以最小化输出组件之间的相互信息。根据它们的符号,每个输入向量x(t)表示t时刻所有输入通道记录的可观测向量。因此执行联合熵最大化。 |
ICA应用于语音信号: |
独立分量分析试图将一个多元信号分解成多个独立的非高斯信号。例如,声音通常是一种信号,它是由几个来源的信号在每次时间t上的数值相加而成。主要的问题是是否有可能将这些贡献源从观测到的总信号中分离出来。当统计独立性假设正确时,盲源ICA分离原始信号与噪声信号相结合,可以得到很好的结果。它也用于分析不应该由混合产生的信号。ICA的一个重要应用是鸡尾酒会问题,当两个或两个以上的人同时在一个房间里说话时,如果要通过消除看不见的噪音来清楚地找出个人的讲话。同时,假设无回波或无时延,可以简化问题。需要考虑的一个重要注释是,如果存在N个源,至少需要N个观测(例如麦克风)来恢复原始信号。这构成了平方情况(J = D,其中J是模型的维数,D是数据的输入维数)。其他未测定(j>d)和过测定(J < D)的病例也进行了研究。 |
因此,对原始语音和噪声语音的组合信号进行ICA分离可以得到很好的结果,这取决于两个假设:1)源信号必须彼此独立。2)每个源信号中的值具有非高斯分布。 |
|
在用信号写的《独立分量分析》一书的第131页可以找到证明。(他们为ICA贡献了大量的作品)。这种近似也遇到了峰度(对异常值敏感)同样的问题。还开发了其他方法。 |
|
峰值信噪比,通常缩写为PSNR,定义为信号的最大可能功率与影响其表现保真度的破坏噪声的功率之间的比率。通常,PSNR是用对数十进制刻度表示的 |
|
ICA解决了一个不同于大脑激活定位的问题,因为该方法提供了一个神经源何时活跃的信息,而不是它在哪里。然而,ICA方法确实提供了每个神经源产生的固定电场的头皮分布(Makeig et al,1997)。 |
实验结果 |
比较 |
实验结果表明,该方法在峰值信噪比(PSNR)方面优于常规方法。因此,与之前的方法相比,信噪比提高了10 db到15 db。 |
结论 |
本文提出了一种完全可扩展的异构结构,用于ICA分类的加速。本文提出的方案提高了信噪比,在不可见噪声条件下可以获得干净的输出语音。此外,我们提出的方法将信噪比提高了10db到15db,因此使用ICA分类可以获得更好的峰值信噪比(PSNR)。对不同类型的混合信号进行了评价,结果表明,该技术消除了噪声,得到了原始语音信号。 |
数字一览 |
|
|
参考文献 |
- A.希尔顿,M.帕拉尼斯瓦米,D.拉尔夫,蔡广昌。支持向量机的增量训练。IEEE神经网络汇刊,第16卷,no。1,第114页{131,2005年1月。
- A.希尔顿,D. Lai和M. Palaniswami。回归的单项SV方法。年代提交给PAMI, 2004年。会议论文集。
- A.希尔顿,M.帕拉尼斯瓦米,D.拉尔夫,蔡广昌。支持向量机的增量训练。神经网络国际会议论文集,IJCNN'01 (CD版), 2001年。
- A.希尔顿和M.帕拉尼斯瓦米。一个Modi_ed_-SV简化回归方法。智能传感与信息处理国际会议论文集,页422{427,2004。
- M.帕拉尼斯瓦米,A.希尔顿,D.拉尔夫和B. D.欧文。使用支持向量机进行机器学习。人工智能国际科学技术会议论文集,AISAT2000, 2000年。
- M. Palaniswami和A. hilton。回归的自适应支持向量机。第九届神经信息处理国际会议论文集{2000年11月,第2卷,第1043页。
- 赖达,希尔顿,马尼,帕拉尼斯瓦米。支持向量机分解方法的收敛速度估计。神经网络国际联合会议论文集,IJCNN05,页931{936,2005年8月。
- S. Challa, M. Palaniswami和A. Shilton,分布式数据融合使用支持向量机。第五届信息融合国际会议论文集{2002年7月,第2卷,第881页。
|