介绍 |
谈话时自动识别已成为日常生活中有用的和现实的以及其他现代的重要推动者,科技、创新、谈话、识别、精密远足以保证一个常数效率。它可以严重恶化时的演讲似乎是暴露于防腐剂。虽然谈话可能会经历各种各样的似乎是,本文中描述的工作问题鲁棒语音识别中最具挑战性的问题之一:犯罪的干扰的谈话表明只有一个方向的信息。这个问题是特别具有挑战性,因为所需的谈话表明的声学特性很容易困惑与干扰掩盖迹象,因为有用的细节与音频资源不可用的地方只有一个方向。本文的目的是恢复关注谈话结合干扰对话的一部分,提高识别精度,获得使用指示恢复对话。而要达到这个目的,我们将混合几种时态特性,主要的新策略将立即操作频率揭露的实际谐波成分复杂听。该算法从每个窄带成分直接规律规律使用短时傅里叶的研究方向。一对-明智的交叉流道连接取决于瞬时频率是每一段你的能量和精力,和组规律的元素,被认为是一个典型的一部分资源最初确定的基础上,双方的互相关。在论文中,提到的几种技术能够获得更好的直接的规律性的报告。传统和graph-cut算法确认收集有效地设计用于识别实际的谐波结构。 As a supporting means to increase the greatest efficiency, a computationally efficient test for voicing is recommended. Presenter recognition and message recognition are also presented to improve further the greatest efficiency. |
关注指标的计算最终获得通过改造使用逆短时傅里叶研究根据选择的元素结合警报。情况下的识别精度获得speech-on-speech掩盖评估和比较相应的会话识别系统使用之前的方法的效率。混响的意义的结果是依赖于程序标准。ASR等程序,由此产生的扭曲可能是不必要的,因为许多对话数据库不合格的混响的谈话。然而,Zurek指出混响场音色的重要参与和确定音频的空间特征。因此混响可能是必不可少的项目,如听场重建后(即分裂和调整或重新配置空间听的对象)。如此之多的潜在应用程序资源分割,每一点都有不同的规格,至关重要的是,评估过程仍然是独立的应用程序和维护一个共同的理解可能的技术评估。此外,当考虑反射的情况下,适用于测量来评估算法的分割效率的反射的情况下,没有评估混响的影响结果。一项最新研究推荐测量评估回响的分离的谈话。测量,称为直接路径,反映了早期,和混响的关注和戴面具的人(DERTM)措施减少当前的音频,洞察力和混响的后期开始关注和干预似乎。 This is because suppressing delayed reverberation is an essential objective for a binary mask if human efficiency in conversation intelligibility is to be obtained. |
回响的指标是证明是非常有效的对话,但这限制了其计划,因为谈话实际上并不是唯一可能需要的信号产生(音乐设备分裂也是一个典型的任务)。此外,它象征着,可理解性是最大的资源分割,目标,正如上面提到的,可能是也可能不是这样。资源的典型目标分割算法和目标提出了计算听实地研究王(CASA)是IBM计算。 |
现有的方法 |
采用IBM作为计算的目标,我们可以精确地描述声音分割作为二进制类。推荐一个开始监控范畴战略为IBM评价虽然双耳功能用于对话分裂。许多研究实现二进制分类为IBM评价在单声道的部门。处理干扰的识别元素谱图作为健壮会话自动识别的贝叶斯分类问题。维斯和埃利斯利用相关矢量产品分类t f的设计。晋王,合格的多层感知器(MLP)分类t f单位使用pitch-based特性。他们计划在混响情况下获得良好的分离效果。金et al。[20]使用高斯组合设计(GMM)了解振幅调制不同的提交(AMS)特性target-dominant interference-dominant设计然后t f单位通过贝叶斯分类类别。的分类器导致语音清晰度发展听力正常的观众。金姆和Loizou进一步推荐一个循序渐进的训练过程加强对话可解性,开始从一个小的初始设计和先进的设计因素,更多的数据变得可用。 We recommended a assistance vector machine (SVM) centered program and used both pitch-based and AMS features to categorize T-F designs simplest way of design category is binary (or 2 class) design classification. Cognitive stereo represents wi-fi architectures in which a interaction program does not function in a set allocated group, but rather searches and discovers an appropriate group in which to function. This symbolizes a new paradigm for variety usage in which new gadgets can opportunistically feed on groups that are not being used at their moment and place for their main purpose [5]. |
|
主程序可能有一个收件人容易受到额外的干扰,同时主要的信号跟踪航路的额外的用户,基本理论问题仍为工程实际规范知识立体现实的计划,这样他们不与主用户干预。呈现tradeos和知识接收者所遇到的困难,可以被发现。特别是,确保与主要客户不干涉不局限于非常低的传输能力,知识立体程序需要能够识别非常贫穷的存在主要警报,此外,我们显示的基本边界传感器成为硬限制任何可能的传感器如果音响有强大的品种在其有限的反馈. .本文提出方法,只需要一个小训练语料库和可以推广到看不见的条件。这是受分配的实际尺寸显示,大多数品种远远在利用。最重要的因素之一,任何知识立体程序提供一个保证它不会干预的主要传输。能够提供这样的保证很明显,知识立体程序应该能够认识到存在的主要迹象,它可能产生严重的阴影。这是一个版的看不见的国际机场的问题。 |
|
提出了分离方法2.1正弦模型每个主持人让用sj (n)和j[1, 2]及其组合显示通过与n = 0 z (n), 1。N−1随着时间的示例目录其中N是窗口时间的例子。谈话的正弦设计一组指示帧正弦建模和不受约束的正弦参数估计我们考虑两个变体设计开发。我们创建的变化被描述为紧随其后;1)光谱系数转换为梅尔范围要考虑个人听证会的对数灵敏度程序,和2)在每个梅尔集团最大的谱峰丰富选择。利用这两个基本面,我们的正弦参数评估的概念,我们最终发现一个最佳每组和3 M×1丰富的向量,规律和阶段为每个扬声器信号或其组合。我们获得混合估计量取决于实际的扬声器和无约束正弦因素组合。在过去的部分研究表明,分析根据信噪比不能提供固定排名对于一个给定的二进制卷积干扰时掩盖。因此适当的发现能够提供一致的测量分数对于一个给定的二进制卷积干扰掩盖单独。因此,如果计算的目标是IBM资源分离算法,利用二进制封面,然后测量水平的量化测量的掩盖是完美的应该是一个合适的选择。 Furthermore, findings created by Li and Loizou point out that the design of the binary cover up is more essential for speech intelligibility than the regional SNR of each T–F device because the pattern of the cover up may help to their research confirmed a powerful negative correlation between binary cover up mistake and conversation intelligibility. This implies that, at least for anechoic conversation, calculating the binary mask error can estimate the conversation intelligibility of a binary cover up. When evaluating the perfect and measured covers, each T–F unit from the measured cover up can be immediate hearing interest. This indicates that the measurement should consider the design of the cover up without weighting the efforts of each T–F device according to its regional SNR. Such a measurement was suggested by Hu and Wang. Their metric assesses segmentation efficiency and is depending on a measurement proposed by Machine etal.For evaluating picture segmentation. Hu and Wang’s measurement analyzes perfect sections with measured |
部分。因此,在他们的策略有几个比较的结果;部分可以被认为是: |
正确的:测量和完美的部分重叠 |
Under-segmented:测量部分包括两个或两个以上的理想的片段 |
算法:一个完美的部分包括两个或两个以上的计算部分 |
明显不匹配:测量部分包括一个t f从完美的资格。 |
失踪:绝对测量部分包括t f地区属于完美的资格。 |
然而,并不是所有的方法都以这种方式利用分割,因此这种测量可能不是所有方法的雇佣条件。上述研究由李和Loizou演示对话可解性的后果二进制掩盖错误。e,要么是适当的(如果它适合相应设备的完美面具)或错误的两种方法。情况下,完美的关注是错误的认识,在最糟糕的情况的情况下,结果在一个重要关注资源设备不造成的结果。情况下完美的资格是错误地认识到可能的结果,在最严重的情况下,在屏蔽资源的干扰或其他干扰。李和Loizou发现谈话可理解性错误的警报错误比跳过错误更有害。 |
|
科学证明这两种错误的后果在其他程序中并没有被发现但每个错误的相对重要性可能是应用程序特定的,跳过错误更重要在某些应用程序中,谈话可解性不是主要目的。因此确定测量,并维持其自由的程序,这两个错误都在这里同样计算。观察到这可能适合一个特定的程序通过修改错误加权更微妙的错误类型。因此,完美的二进制掩盖率(IBMR)建议作为评估资源分离方法的测量,利用二进制面具。IBMR是一个定制的面具和广义的二进制方式错误或标签的精度。IBMR提供了一个直观的分数在[0,1]掩盖,根据IBM的信件,而不是评估再合成的结果。 |
该方法 |
独立分量分析(ICA):独立分量分析(ICA)最初提出解决盲源信号或分离问题恢复独立的源信号(例如,音乐,演讲,不同的声音和噪音来源)后被一个未知的线性混合矩阵,(图1)。有的只N不同记录混合物但不知道混合过程或来源。任务是恢复一个版本,年代,相同的除了缩放和排列,U,最初的来源,发现一个方阵,W,指定空间过滤器线性逆混合过程,即U =天气。贝尔和Sejnowski(1995)提出了一个简单的神经网络算法,利用infomax独立来源是盲目的混合物分离。他们表明,联合熵最大化,H (y),神经的输出处理器最小化输出组件之间的互信息。符号后,每个输入向量,x (t),代表一个可观测向量记录的输入通道在时间t,因此执行联合熵最大化。 |
ICA用于语音信号: |
独立分量分析试图将多元信号分解成没有独立非高斯信号。作为一个例子,声音通常是一个信号,由数值,在每个时间t,从几个来源的信号。最主要的问题,是否有可能将这些贡献从观察到的总信号来源。当统计独立的假设是正确的,ICA的盲源分离的原始和噪音信号结合起来,提供了非常理想的效果。也不应该用于信号产生的混合进行分析的目的。ICA的一个重要应用是鸡尾酒会问题,当两个或两个以上的人同时在一个房间里说话如果为了找出个人演讲干净地通过消除看不见的噪音。同时通过假设没有回声或时间延迟问题可以简化。一个重要的注释是要考虑的是,如果N源存在,至少需要N的观察(例如麦克风)恢复原始信号。这构成了广场的情况(J = D, J的维度模型和D是输入数据的维度)。其他情况下的欠定的(J > D),确定(J < D)进行了调查。 |
因此,ICA分离的信号相结合的组合原始和噪音的演讲给了非常公平的结果取决于两个假设是1),源信号必须独立于每个other.2)的值在每个源信号具有非高斯分布。 |
|
|
y是相同的协方差矩阵的高斯随机变量x |
|
负熵的近似 |
|
证明在131页可以找到这本书所写的独立分量分析的信号。(他们贡献的伟大作品ICA)。这个近似也遭受同样的问题峰度(敏感异常值)。其他方法。 |
|
G1和G2的选择 |
|
峰值信噪比,经常缩写PSNR值,定义为最大可能的信号之间的比例和腐败的力量噪声影响的忠诚表示。通常,PSNR值的对数来标示decibal规模 |
|
PSNR (dB)被定义为: |
|
ICA用于脑电图信号: |
从大脑活动定位ICA解决不同的问题,作为nueral方法时提供的信息来源是活跃的,而不是在loated。然而,ICA方法提供一个固定的头皮分布每个神经源产生的电场(Makeig等,1997)。 |
实验结果 |
|
图一:原始的演讲 |
|
F ig2:混合演讲 |
|
图3:误差信号 |
|
图4:ICA语音输出 |
比较 |
已经观察到,该方法ICA提高了峰值信噪比(PSNR)相比一般。因此信噪比提高了10 db 15分贝相比以前的方法。 |
结论 |
本文提出一个完全可伸缩的异构建筑ICA的加速度分类。这里提出的方案提高了信噪比价值和清洁输出语音可以看不见的噪声条件下获得的。此外,信噪比提高了10到15分贝我们的方法,从而更好的峰值信噪比(PSNR)可以通过使用ICA分类。因此,技术是评估不同类型的混合信号显示,原始语音信号通过消除噪音。 |
数据乍一看 |
|
引用 |
- 希尔顿,m . Palaniswami d . Ralph a和c . Tsoi。增量训练支持向量机。IEEE神经etworks, 16卷,没有。1、页面114{131年,2005年1月。
- 希尔顿,d .赖和m . Palaniswami。单项SV方法回归。提交给PAMI, 2004年。会议论文集。
- 希尔顿,m . Palaniswami d . Ralph a和c . Tsoi。增量训练支持向量机。神经网络,国际联合会议IJCNN 01 (CD版),2001。
- 希尔顿和m . Palaniswami。一个Modi_ed _-SV Simpli_ed回归的方法。学报》国际会议智能感知和信息处理,422{427年,2004页。
- m . Palaniswami a .希尔顿·d·拉尔夫和b·d·欧文。使用支持向量机的机器学习。学报》国际会议上人工智能科技、AISAT2000, 2000年。
- m . Palaniswami和希尔顿。自适应支持向量机回归。学报》第九届国际会议上神经信息处理,2卷,1043页{1049年,2000年11月。
- d .赖a希尔顿:玛尼和m . Palaniswami。为支持向量机分解方法收敛速度估计。神经网络,国际联合会议IJCNN05 931页{936年,2005年8月。
- s . Challa m . Palaniswami和希尔顿,使用支持向量机分布式数据融合。第五国际会议信息融合,学报》2卷,881页{885年,2002年7月。
|