所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

在FPGA实现和评价的韵律修改演讲使用DWT-OLA受损的人

l . Bendaouia1,克里Karabernou2,l . Kessal3,h . Salhi4
  1. Ph.D.Student ETIS-ENSEA (Cergy、法国)、信号分配装置(卜利达、阿尔及利亚)CDTA(阿尔及尔、阿尔及利亚)
  2. 部门主管助理教授烯,外星人,ENSEA, CNRS UMR 8051年法国Cergy
  3. 助理教授,外星人,ENSEA CNRS UMR 8051年法国Cergy
  4. 助理教授,电子系统,SaadDahleb大学,卜利达、阿尔及利亚
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

在本文中,我们描述的设计平台现场可编程门阵列(FPGA)韵律修改演讲(PMS)。是不可能复制的听力能力不足的耳朵,可以将语音信号的时间或光谱域保存相关信息可访问审计系统的听力受损的人。设计这样的平台,所以,我们的目标是分析耳蜗的功能和执行有效的处理提高清晰度的某些缺陷的频率成分乐队转移到不同的健康的。设计结合离散小波变换(DWT)和背载和添加(OLA)技术和许可来分析输入数据在不同节段长度,以探测和操纵球。DWT-OLA给予有效的实时结果比经典的设计。我们进行了演讲实验数据基础从北极语料库和使用意味着主观意见分数(MOS)测试评估语音清晰度。我们获得一个增益提高语音可懂度达到了70%。此外,提出FPGA平台涉及显著更少的资源,减少了内存大小和动态功耗比之前小波实现。

关键字

听力障碍、噪音、可理解性、韵律合成语音、音调。

介绍

助听器现在用来减轻听力障碍。然而,超过60%的人觉得不舒服受损当使用助听器,因为糟糕的可解性造成不好的语言的可理解性。我们认为,听力障碍可以通过系统来减轻身体的特征更接近。研究深入参与开发新的算法来提高语音清晰度。
尽管如此,许多研究是提高演讲对受损的人[1],一些作者处理功率消耗的问题。没有给出数值结果,使比较的助听器市场。最密切相关的工作是我们的方法[2],他们提供一种方法基于算法和硬件优化的功率减少随着架构使用奇/偶数据提升。我们的工作是提高避免访问内存数据存储。相反,我们制定我们的算法在给定的数据输入和语音信号分割的每一部分单独处理。为了避免丢失的数据信息,然后部分重叠,重叠技术用于治疗。这种方法提供了完美的分析和有效的计算。因此,这里的框架设计是通用的,需要模拟和实证评估的路由方案以应用。
传统上,数字信号处理(DSP)算法是使用通用处理器(GPP)实现低应用程序。这些设备显示有限的功能实时有效地处理大量数据。趋势然后被转移到专用DSP (SPDSP)和特定于应用程序的集成电路(asic)为了满足性能需求的增加了复杂性和获得这些算法,但高成本函数[3]。今天,fpga是高度优先能力相对较高,成本低、设计周期短和短时间内市场。FPGA提供恒定的重新配置来满足应用程序的能力表现[4]。处理数字语音处理同样适用于听力受损personsespecially小型化系统应用程序;FPGA允许增加复杂的特性更好的还音同时保持小尺寸和低功耗的设备。
幸运的是,模拟工具为我们提供一个快速设计和基本信息。同样,一个高级编程语言是一种有效的比较最终的输出结果和系统评估的工具。在实践中,实现往往受到很多限制[5]。利用DWT在多分辨率独立乐队至今仍然是一个实际的必要性完美设计[6、7]数字语音处理特别是和在此参考从我们的工作,我们的目标是调查降噪和硬件实现。
这项工作扩展了以前的研究中描述(8、9)。在本文中,我们目前的实现多层次的一维DWT结合仿生医用助听器的OLA在FPGA的应用程序。方法旨在改善在一边更好的话音质量,另一方面,一个高效灵活的重新配置和降低成本函数。该计划代表架构去噪和频率变化。实现目标是德开发工具包的阿尔特拉(EP2C70F896)和结果相比,获得了在Matlab。系统提供了一个通用框架允许使用DWT分析/合成与语音信号的频率塑造改善语音清晰度。我们现在一些硬件描述语言(VHDL)和Matlab下仿真结果。因此,比较研究了基于均方误差(MSE)和信号噪声比(信噪比)。金属氧化物半导体评估提出了语音清晰度和获得建议的体系结构获得的。

文献综述

声音是一种重要的交流和传递信息的工具。耳聋发生时由于在大多数情况下,外部听觉细胞的破坏(OHC),听力受损的人感到巨大困难理解演讲中噪声和混响环境。在这种情况下,一些频率的听力阈值量化的损失在dB耳蜗的某些地区,导致损失的声音频率的线性。这结果的损失压缩和放大的活性机制将在第二节,听证会的扩展过滤器将产生两个主要的后果。首先,掩蔽现象加强,环境ambientnoise会更烦人,因为过滤器将变得不那么选择性[10]。优良的光谱和时间信息过滤和衍射的影响产生的外部和中耳将丢失和声音的感觉将会深刻改变。
数字助听器关注轻度或中度的耳聋和允许的电声参数数量的控制和调整,其中频率响应、SPL饱和,压缩方面,微调特性、降噪和声学反馈取消。虽然他们提供许多优点和方法的信号处理能力,分析上没有改进会发生声音信号,严重被审计系统。这些假肢是顺向不主要采用先进的数字技术对时间和频率同时修改。这些假肢的缺乏频率选择性和一些研究建议的方法增加信号持续时间或转移耳蜗的频率非选择性活跃的地方。演讲语言依赖、通常被描述在几个水平。在心理声学的层面,语音理解基于其基本参数即频率、幅值和持续时间[11]。韵律修改的目的是使一个,两个或两个以上这些参数变化的演讲部分而不影响木材。信号强度可以很容易地修改一个乘法;这意味着通过放大辅音能源将提高他们的身份。但是,基频的变化或音高(F0)和持续时间或速度不是很明显的[12]。 Clear speech has better intelligibility that conversational one where significant differences in phonetic, phonological and prosodic features are observed. If the duration-rate decreases, the speech intelligibility increases. However, applying phoneme duration from conversational to clear speech did not improve the intelligibility. Making use of pitch (F0) in identifying initial voiced/unvoiced consonants or inserting pauses at the phrase boundaries will improve the intelligibility [13].Some approaches use speech denoising techniques and others try to model the speech signal by parametric techniques. One of the recommended solutions is the source / filter decomposition of the vocal signal based on the knowledge of the speech production system. This technique belongs to a family of reference methods used for speech synthesis. This type of methods is effective to reduce the background noise. They have structures which are perfectly adapted to the implementation of the hearing rehabilitation process. They operate directly on the signal waveform to incorporate the prosody information. As an example, there are techniques operating in the time domain such as the Synchronous Overlap-And-Add procedure (SOLA) proposed by Roucous and Wilgus, the Pitch Synchronous Over-Lap and Add (PSOLA) and the modified version of PSOLA using Waveform similarities (WSOLA) proposed by Verhelst and Roelands [14] and, for the Frequency Domain (FDPSOLA). The improvement of this technique by using temporal methods of decomposition in waveforms and bands based on the knowledge of the acoustical psychology is also possible. To utilize the advantages of wavelet processing for speech enhancement, lot of researches has been carried out leading to many contributions for algorithm developments and architecture designs with less complexity and fast processing frequency.

底膜建模和系统设计

审计系统分析了声音信号通过一系列的过滤器。这些听证会过滤器重叠持续在整个声音的频率范围(20 - 20000赫兹)。频率分布的现象带来的底膜最初的掩蔽实验感知强度。声音信号的检测也比作一场听证会的输出滤波器的中心频率接近的信号。内的噪声带宽决定是否可检测的信号。几个经验表明,听证制度使用听觉滤波器的信号噪声比最高,被称为off-place听。这些经验之一是在1940年由弗莱彻。g·冯·贝克赛发现底膜位置本身特定的语音频率选择性。基膜的位移的刺激不同声压水平是衡量b·m·约翰斯通和艾尔。他们明确的质量因素共振基膜的变化取决于inputsound的压力信号。数学模型从贝克赛的数据近似基膜由j·l·弗拉纳根displacementwas派生。 The Basilar hardware Membrane Model (BMM) is constructed based on Flanagan’s mathematical models taking into consideration Johnstone’s experimental data [15]. The feature extract function of this model has been examined in order to apply the hearing function to engineering models.
听到过滤器是精确的非线性的方式安排在大英博物馆infigure1所示。他们依赖刺激的水平。过滤器被称为临界频带宽度(CB)指的是茨威格的措施。带宽可以根据中央计算频率(f)使用树皮缩放公式1 [16]。细,摩尔和Glasbergproposed帕特森的措施方法,公式2。
图像(1)
图像(2)
检测的死区:自声能在耳蜗旅行从基地到顶点,也就不足为奇了更多的听力损伤发生在高频率,在基地附近,所有的声能,比低频率,达到的顶点附近只有信号的低频分量。耳蜗的惰性区域的筛选试验似乎是不可或缺的audio-prosthetic保健的听力受损的人为了避免在校正可以干扰的频率范围,而不是提高他们的理解。噪声阈值均衡(十)测试使用窄带噪声掩蔽132 Hz集中在1000赫兹的频率。10 dB /表达水平ERB(分贝等效矩形带宽)。10水平肯定比10 dB上不蒙面的更好的频率。根据结论由布莱恩·摩尔J.C.惰性区显示频率的绝对阈限面具10分贝绝对是严格大于阈值水平和名义十值。此外,根据摩尔,在收购了耳聋,听力损失高于90分贝HL在高频率和80分贝HL低频率往往是相关的死亡区域。允许这些频率的有效检测,几个技术开发。在这其中,基音检测和转换的技术最常见的应用。
声音由DWT分类:离散小波变换方法[17]已经证明其重要性以来分析暂态信号小波变换之间的连接由1989年由Mallat和多速率滤波器组树。DWT的配方为一组FIR滤波器为建模复杂的算法硬件体系结构奠定了基础。小波变换的优点是使用变量的时间窗口大小不同的频带,图1 (a)。是有用的语音去噪、语音分类和标记。高低频分量是规模近似系数和指出(Ax)。然而,低尺度细节系数和高频组件(Dx)指出。在分类过程中,语音信号是有窗的使用汉明窗由公式3。每个窗口被分散成(m)重叠段(帧)的固定长度(Sa)在每一个样品如图1所示(b)和DWT-OLA应用于窗口内的部分。
图像(3)
声音是分类过程中找到单词之间的界限,音节和音素。为了进行分类时,我们必须考虑语言的声学特征。大量的技术使用语言为基本方法的分割。的方法是确定有声/无声的部分或沉默。对于实时应用程序,使用能量和过零率或自相关。过零率估计公式4。
图像
然而,固定信号的自相关估计公式5和香农熵的计算(m)段由公式给出6
图像(5)
图像(6)
语音信号的离散样本1和1之间的归一化,假设第m个段沉默或无声的如果†n < 0.1。然后我们计算近似的能量和细节系数使用:
图像(7)
是黄嘌呤的j近似系数段(Dj相同)

系统实现

为了估计系统的硬件性能,设计了原型目标德发展局工具包包含FPGACyclone阿尔特拉二世EP2C70F896 [18]。提出系统提出了张挂2显示编码接口。后者被设计使用Qsysto作为输入/输出接口系统[19]。
平台由块I / O和处理块包含CONV-OLA组件。输入的语音信号样本aredirectly取自计算机通过麦克风和采样的输出连接器或16岁KHzusing模拟到数字转换器(ADC)。通过Fifo-Out端口输出样本收集;他们转换为模拟信号,送到扬声器。OLA模块,可以对信号的连续行为通过重叠相邻段。作为输入样本的变化在每个瞬间,零填充的输入数据。在计算过程中,只有重叠数据暂时存储产生获得的内存空间。输出数据是通过添加它毗邻段。使用图3,QMF等信号输入的每个层次由低通分裂(h)和高通(g)过滤器由公式分别为9和10。
图像(9)
图像(10)
使用QMF的优势是信号的延迟但完美重建和无混叠。我们应用连续时间之间的对齐窗口对为了消除相位不连续信号相似之处。整个系统的同步处理数据采集、计算和转移保险是一个状态机,

系统性能

我们使用嵌入式逻辑寄存器的数量降低了DSP48A1 MACslices。我们还可以从表我观察,我们获得的资源数量的转置形式比这少得多的直接形式。
从图4中我们可以观察到,I / O能力高(38.05%)由于吞吐量和内存少消散能力(4.41%)。这是解释的架构完全参数化和廉线。

实验结果和评价

实验装置:听众:该集团是由12个男性和女性的听众。10是正常的听力(额定马力)科目和2是听力受损的(臀部)学科27岁和45岁。之间的年龄是24和57岁的平均年龄34年。演讲者:话语是由本地男性和女性的英语。句子材料:总共11个英语句子从北极语音语料库的数据基础。环境:测试期间举行了一个英语会话。教室位于在一个与世隔绝的地方背景噪音(45分贝)。过程:通过喇叭从计算机给出的短语。我们回忆起整个句子的男性和女性的扬声器。相应的响度首次调整允许参与者感知质量稳定,没有体积的变化。每个侦听器给出意见分数表(OST)把自己的听力的质量记录。受试者被要求评估声音五点量表(1 - 5)。
使用DWT-OLA,图5中的信号首先denoisedas (a)、(b),硬阈值技术被应用,因为演讲的高频组件损坏的噪音。球被检测到和操纵为了转移一些频率在演讲之前重建。
听力正常的输出信号成为合成但更重要的是听力理解的人。图6显示生成的演讲中使用进行了实验。
图7显示了MOS结果从第一个进行了实验。图中,我们可以观察到相同的条件下,听力受损的人(IHP)比正常听力的人缺乏理解(额定马力)。同时,很明显,女性说话时出现困难(球:200 - 300)比男性说话(球300 - 500)。
当语音信号处理通过去噪和修改,获得的获得可理解性的参与者到达70%受损。从图表我们可以看到图8的HPL可以达到正常的听证会在正常情况下。
确认:作者想解决他们伟大的由于佩德罗oss教授接受了传导的实验在他的英语课会话和志愿者参加了这些实验。

结论

在本文中,我们实现了一个在FPGA平台助听器和显示可能的办法有效使用DSP技术设计。使用DWT-OLA,语音信号分割没有任何失真。算法的有效性评估使用对象有无听力不足。听力测试表明,该算法提高了质量和去噪语音的可懂度。感知能力的比较实验语音听力正常和听力受损的人表明,在相同的条件下,听力受损的人通常很低分数的语音识别,需要提高声压水平(SPL)达到的性能良好的听力。我们的目标是提供一个有效的系统和建议的体系结构给出了令人满意的结果意味着根据评估的意见分数(MOS)。因为这个嵌入式设备应该是可移植的,工作也集中在一些优化即FPGA资源的减少和功耗。FPGA的重构性成为可能的使用DWT算法与规格不同的参数,以满足不同听力病态。我们正在寻求我们的研究为降噪设计混合架构和回波消除。

表乍一看

表的图标
表1

数据乍一看

图 图 图 图
图1 图2 图3 图4
图 图 图 图
图5 图6 图7 图8

引用




















全球技术峰会