所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

基于语音处理的实时信息系统:广播电台作为虚拟眼为盲人

Ranu武断的话1Navdeep考尔2
M。理工大学学生,信息技术、昌迪加尔工程学院,Landran,莫哈里(印度旁遮普1
信息技术学院、昌迪加尔工程学院Landran,莫哈里(,印度旁遮普1
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

至今很多盲人斗争生活悲惨的生活。他们的问题让他们失去希望住在这个竞争的社会。他们寻求别人的帮助指导他们一整天。本文旨在让盲人完全独立。本文的主要目的是帮助盲人和视障人寻找日常生活信息时需要通过广播电台。它涉及不同的声音信号的同步和阅读每个信号的一些明智的。这些信号存储在数据库,应用HMM算法和分发每个声音信号在一个信息数据库。语音识别系统是适用于每一个声音信号必须创建声音对应数据库。net仿真工具是用来实现我们的方法。我们目前的实验结果显示有效地帮助盲人和视力损害的人。

关键字

自动语音识别,隐马尔科夫模型(HMM), . net仿真工具,分类,特征提取,绩效评估、数据库。

介绍

盲人和信息技术:视线被认为是最重要的感官,人们缺乏这种意义上与他人怜悯看待。视力损害的人面临许多困难来执行他们的日常任务。他们是完全或部分依赖别人帮助[1]。为了克服这些缺点,我们设计一个系统来收集最新信息通过自动语音识别在任何时候通过无线电和提供解决方案,这将是巨大的优势相比,今天的设备所使用的盲人。这个系统能够实现所有的民族视觉损害和帮助他们变得独立像正常的人类。

二世。客观的

广播作为信息的工具:传统广播节目是通过调频,播放不同的频率,和收音机调到每一个频率,根据需要。这使用了相对大量的光谱相对较少的电台,限制听力的选择。继电器的计划,首先它是记录,然后需要编辑,之后,在一个合适的时间表是继电器各自的频率。在这个过程中观众可以听这个项目是免费的同时,如果他们忙于他们可能不听节目,为了避免这个问题实时通信称为直播是有用的,我们目前的实验结果显示,帮助盲人和视障为日常生活中查找信息。
盲人用户请求信息(电台)和电台回答问信息如医院或机构。用户选择的选项为医院医院或协会的演讲中,其中的一个。这个选项作为输入数据的机器。
在无线电通信信息,如声音转换成一个电子信号适用于发射机。发射机发送的信息在空间的无线电波(电磁波)。接收器截取的一些无线电波和提取地电子信号,转换回原来形式的传感器如扬声器。
我们必须抑制干扰实现noise-robust免提观察信号的语音识别的信息在每个麦克风[2],[3],[4],[5],[6],[7],[8],[9],[10],[11],[12],[13],[14],[15],[16],[17],[18]。研究语音处理和沟通在很大程度上,是由人们的愿望激励建立力学模型来模拟人类言语交际能力[19]。语音处理是其中一个最令人兴奋的领域的信号处理。由机器自动语音识别已经吸引了大量的注意力,六十年[20]。

三世。设计的系统

虽然目前软件系统往往曲解和用户友好的,他们通常不太方便视力损害的人。原因是图形界面和缺乏的功能满足特殊需要的视觉影响。语音合成器和屏幕阅读器软件仍然是基本功能使用的视觉损害获取信息通过电脑[22]。
提出系统可视化为框图有以下组件:
1。录音和文字检测组件
2。语音识别特征提取组件组件
3所示。声学模型和语言。
答:(录音和文字检测组件的责任是接受来自一个麦克风输入并将其转发给特征提取模块。之前把信号转换成适合或欲望形式也识别的重要任务包含单词声音的片段。它也有一个规定的声音保存到WAV文件培训所需的组件。记录仪需要从麦克风输入和保存或远期根据调用函数记录仪支持改变采样率,渠道和样本的大小。
词探测器
在语音识别检测是很重要的一个词是口头的。系统检测到该地区的沉默。除了沉默是考虑作为一个口语的系统。系统使用能量模式出现在声音信号和零交叉率检测沉默的地区。把它们都很重要,因为只有能源部分往往错过听起来是很重要的。
b .特征提取组件:组件生成的特征向量对声音信号。它生成梅尔频率倒谱系数和正常化能源的特性,应该使用唯一地标识给定的声音信号。
c。识别组件:这是一个连续的,多维的隐马尔可夫模型基础组件。它是最重要的系统组件,负责寻找最佳匹配知识库中,向量的特性。
d。知识模型:基于组件由词声。声学模型的表示一个词听起来如何。识别系统利用这个模型,识别声音信号。基本流程一旦训练完成,可以总结为声音输入取自录音机和观察到特征提取模块。特征提取模块生成的特征向量,然后识别组件。识别组件的帮助下知识模型并提出了结果。在培训上面流后一代的不同特征向量。这里的系统特征提取模块的输出,并充入的识别系统修改知识库[21]。
下面的图是我们工作的需要。

四、方法

制定的假设:这个想法结合了两个领域。一个是实时通信盲人和二是语音合成与识别。这个应用程序将Microsoft . net。微软提供了语音合成和语音识别的特点。语音合成意味着从文本到语音转换和语音文字转换语音识别手段。两种想法都是结合的。现在下一个任务是生成文本理解的声音。在这发生了什么,都有一个数据库,存储相应的声音段使用。从文本到语音转换的效果完全取决于有效的声音片段存储在数据库中。在语音文字转换,首先音频信号被包括字符串、数字和各种球。 This audio signal needs to check among the data store in the database. For better results recognizer should care about only the require stuff. So for this purpose application is a grammar which enhances the efficiency of the search. This idea is use to make an algorithm for searching the results of subjective questions from the database.
b .系统软件使用
1)Visual Studio - 3.5
2)Sql Server -创建知识库
3)演讲SDK 5.1的转换

诉语音文本和文本的声音

步骤如下:盲人用户请求信息(电台)和电台回答问信息如医院或机构。用户选择的选项为医院医院或协会的演讲中,其中的一个。
图像
上述言论完全启用应用程序场景作品和必需的特性可以放在相应的应用程序。

第六,数据来源

用户提供的数据以演讲的形式,并给出相应的响应用户。假设用户说一个医院,然后相对含量是显示给用户的形式从文本到语音转换和内容提出了音频的形式。系统提供的输入,转换成音频形式。

七世。语音合成算法和决策树

决策树诱发自动算法构造决策树从一个给定的数据集。通常的目标是找到最优决策树通过最小化泛化误差
答:语音信号的输入从用户数组{s1、s2、s3….sn}
如果(输入){
信号发送到语音识别引擎
}
其他{
/ /请提供输入或超时
打破;
}
c .检查语音语法
d .如果(真)
{/ /搜索内容}
其他的
{/ /去step1}
e .显示输出
从文本到语音的自动转换
g .音高和紧张的检查完成
h .音频信号的一代
即声音结果将提供给用户

八世。数据收集和分析的工具

基本思想是将文本转换为语音,反之亦然。我们没有附加任何硬件,因此我们将从虚拟开始调用软件显示的连接。答:系统提供你说医院的选择,或研究所。它是通过语音合成器类对象在。net framework 3.5的一个演讲。
b .当用户说什么,那就是这里的系统通过语音识别器和观察到HMM算法实现使用语法构建器类,语法存在。提取和分割单词与语法。如果找到匹配,有一个知识库,将获取的数据。
假设用户说一个意思是为医院用户想要的信息。识别器班上与语法。然后将从数据库中获取相应的数据。
c,然后有一个反向从文本到语音的转换,又嗯换向器将应用和用户获取信息。之前解释语音识别和合成所需步骤让讨论所需的参考。
1。需要使用微软的演讲对象库。
2。系统,演讲需要提及。
几个头文件要求执行语音识别和语音合成。
我)言论自由
2)语音识别
3)语音合成

第九。实验结果和讨论

用户验证给定的表中列出非噪声区域
积极的识别:
每个变量的用户总数:50
变量:3(慢速,中速和快速)
上面的结果是获得147用户反映正确的匹配150。
在这种情况下,结果发现98%。
积极的识别:
男性用户总数:50
女性用户总数:50
儿童用户总数:50
在性别的情况下被发现的结果是100%。
测试数据,我们使用shell脚本如下:
使用系统;
使用System.Collections.Generic;
使用System.ComponentModel;
使用System.Data;
使用System.Drawing;
使用来;
使用text;
使用System.Windows.Forms;
使用System.Speech.Recognition;
使用System.Speech.Synthesis;
名称空间voice_calculator
{
公共部分中类Form1:形式
{
SpeechRecognizer speechreco = new SpeechRecognizer ();
SpeechSynthesizer sp_sz = new SpeechSynthesizer ();
长= 0;
长b = 0;
长res = 0;
字符串超载比= " ";

x的结论和未来的工作原理:

这个模型使视力受损的人独立函数像正常人类。它改善了他们的生活质量。遇到的问题与现有的系统延迟和缺乏效率。为人类服务的主要目的是通过提供视觉的贫困。最近没有太多时间用户实现信息由于忙碌的生活方式。所以在这些天的健康和青少年事业问题是主要的事情。我们提供了一个全面的解决方案的实时信息用户和机器之间的通信由用户在需要的时候。在未来我们要做的是:
答:评估学习者的主观问题在电台的帮助。
用户会输入系统。这个输入将要检查对数据库使用的问卷。的基础上最合适的匹配结果将显示在帮助的声音,这声音广播电台的听众。
c .吵闹的出错率降到最低

习确认

我想表达我最深的谢意Navdeep考尔(论文导师)有价值的指导。只有她的指导,我可以占据主动的良好的论文主题。我也很感谢d·R·夏尔马先生,印度昌迪加尔广播给我机会提出和实施我的工作。

表乍一看

表的图标
表1

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4
图5 图6 图7
图5 图6 图7

引用

  1. V.D. Kanna和S。Aswin Amirtharaj,票面价值迪帕克Govind Prasad, N。斯您正在设计一个基于FPGA的虚拟眼盲”2011年第二环境科学与技术国际会议IPCBEE下册(2011 IACSIT出版社,新加坡
  2. b . h . Juang f . k .宋子文,免提通讯、Proc。免提国际会议上演讲沟通、5 - 10,2001页。
  3. j·f·卡多佐,”Eigenstructure四阶累积量的张量与盲源分离问题,应用“Proc。ICASSP”89年,第2112 - 2109页,1989。
  4. c . Jutten和j . Herault“盲源分离我部分:基于neuromimetic架构,一种自适应算法”信号处理,24卷,1 - 10,1991页。
  5. p .通常,”独立分量分析,一个新概念吗?“信号处理,卷。36岁,287 - 314年,1994页。
  6. a·j·贝尔和t . j . Sejnowski“信息最大化的盲分离和盲反褶积方法,”神经计算,7卷,没有。6,1129 - 1159年,1995页。
  7. 美国、美国道格拉斯,a . Cichocki h·杨,“多通道使用自然梯度盲反褶积和均衡,“诉讼IEEE无线通信国际研讨会,页101 - 104,1997。
  8. p . Smaragdis”,在频域卷积混合盲分离,“Neurocomputing, 22卷,没有。1 - 3,还是,1998页。
  9. 崔s s、a . Cichocki r·刘,“自然与非完整约束梯度学习盲反褶积的多个频道,”国际研讨会ICA和BSS,学报》371 - 376年,1999页。
  10. n .日本村田公司和美国Ikeda在线算法对语音信号盲源分离,“Proc. NOLTA98, 3卷,第926 - 923页,1998年。
  11. t . Takatani t . Nishikawa h . Saruwatari, k . Shikano”Highfidelity声学信号的盲分离使用simo-model-based ica与几何学习的信息,“Proc。IWAENC2003, 251 - 254年,2003页。
  12. t . Nishikawa h . Saruwatari, k . Shikano“稳定的学习算法forblind暂时分离相关的声学信号结合多级ica和线性预测,“IEICE反式。基本面,E86-A卷,没有。8,2028 - 2036年,2003页。
  13. l . Parra c·斯宾塞,“non-stationarysources Convolutive盲分离”,IEEE语音和音频处理,8卷,pp.320 - 327, 2000。
  14. h . Saruwatari t .河村建夫、t . Nishikawa和k . Shikano”Fastconvergence盲源分离算法在阵列信号处理的基础上,“IEICE反式。基本面,E86-A卷,没有。2003.45 4页286 - 291
  15. t . Nishikawa h . Saruwatari, k . Shikano”声信号的盲源分离基于多级ica结合频域ica和时域ica,“IEICE反式。基本面,E86-A卷,没有。4、846 - 858年,2003页。
  16. h·泽田师傅,r .向井亚纪,荒木,和美国牧野,“基于极坐标的非线性函数频域盲源分离,“IEICE反式。基本面,E86-A卷,没有。3、590 - 596年,2003页。
  17. 荒木,美国牧野,y Hinamoto, r . Mukai t . Nishikawa和h . Saruwatari”之间的等效频域盲源分离和频域自适应波束形成convolutive混合物,“EURASIP应用信号处理杂志,2003卷,没有。11日,第1166 - 1157页,2003年。
  18. Y森h . Saruwatari t . Takatani s Ukai k . Shikano t . Hiekata Y。池田h .桥本,t .盛田昭夫,“盲分离声signalscombining simo-model-based独立分量分析和二进制掩蔽,“EURASIP应用信号处理杂志,2006卷,页ID 34条970,17页,2006。
  19. 硕士Anusuya,”栏目Katti Sri Jaya chamarajendra工程学院迈索尔,印度国际期刊《计算机科学与信息安全,6卷,3号,2009年
  20. Dat答Tran”模糊语言和说话人识别方法,“学位论文提交的堪培拉大学的哲学博士。
  21. 西蒙Kinga和乔•弗兰克尔识别、语音知识生产自动语音识别,美国声学学会杂志》,2006年版。
  22. 罗伯特•Batusek和伊万Kopecek视障人”“用户界面,马萨里克大学出版社,2000年。