手术后患者数据不同分类技术的比较研究

萨提亚·兰詹·达什¹和萨奇丹南达·德胡里²

KIIT大学计算机应用学院，印度布巴内斯瓦尔-751024
亚洲大学系统工程系，韩国水原永通区元川洞新5号- 443-749

摘要

手术后患者数据集是从UCI KDD档案中获得的一个真实世界的问题，它用于我们的分类问题。本文采用不同的分类技术，如贝叶斯分类、数据挖掘的决策树归纳分类以及与软计算的模糊概念相关的分类技术来实现我们的数据集。用于比较不同算法的参数有RMSE、ROC Area、MAE、Kappa Statistics、建立模型所需的时间、相对绝对误差、根相对平方误差和分类实例的百分比值。

关键字

特征提取，LPC, MFCC, VQ, Gujarati数据库

我的介绍。

语音识别是机器语音处理的分析课题。人类语音识别已有数千年的历史，被称为自动语音识别(ASR)。印度已经为印地语[1][2]、马拉雅拉姆语[3][4]、泰米尔语[5]、马拉地语[6]、泰卢固语[7]、旁遮普语[8]、乌尔都语[9]等语言开发了语音识别系统。孤立语音识别用MATLAB^®古吉拉特语就是这样。相对工作[10]博士c . k . Kumbharana完成古吉拉特语单词检测”一个ª,ª,一个ª°,一个ª¤和ª®”,使用MFCC函数。

执行这项研究有两个不同的特征提取算法和使用培训和测试数据从不同的单词一个一个ªª(8),一个一个ª¤«一个一个ª°ª£(三)和一个一个ª«一个一个ªª°一个一个ª¤«(Gujaraati),等等。每个人都说了10个单词，每个单词有0到10个数字，每个单词有5个单词。因此，对四个说话者，总共记录了200个单词的发音。使用笔记本电脑内置麦克风，使用RecordPad软件[11]录制古吉拉特语孤立单词，并以。wav格式存储。这些数据是在有背景噪音的封闭房间里记录的。这种噪声环境下语音数据的记录方法对鲁棒自动语音识别系统具有重要意义。

全文共分为五个部分。第一节绪论。使用MFCC和LPC的特征提取分别在第二节和第三节中描述。第四节对结果进行了分析，第五节给出了结论和未来的工作。

2使用MFCC进行特征提取

梅尔频率倒谱系数(MFCC)是Davis和Mermelstein在公元1980年提出的。它是一种常用的特征提取方法，特别是在自动语音和说话人识别系统中是最好的方法之一。将MFCC作为手势识别的一种应用，利用支持向量机分类器[12]将输入图像转换为一维信号，进行特征提取。将MFCC系数作为音频分类特征来提高分类精度，将其用于音乐特征，然后BPNN算法识别出音乐类[13]。

在引入mfcc之前，线性预测系数(LPCs)和线性预测倒谱系数(lpcc)是ASR[14]的主要特征类型。MFCC用于扬声器信息验证，如内容和频道[15]。mfc是一种广泛应用于自动语音和说话人识别的功能。给出了从Mel标度频域提取倒谱特征参数的计算方法。MFCC的步骤给出了波纹管，

如图1所示，信号经过第一阶段的强调，这将增加信号在更高频率的能量，以补偿在人类发声机制中被抑制的高频部分。现在，将增强后的信号分割成帧大小为20~30 ms的帧，重叠为1/3~1/2。这里采样率为8 kHz，帧大小为256个采样点，则帧持续时间为256/8000 = 0.032秒= 32ms。每一帧将与汉明窗口相乘，以保持帧中第一个点和最后一个点的连续性。MATLAB®还提供了生成汉明窗曲线的命令。通过FFT得到每一帧的幅频响应，假定在帧内是周期性的。三角形带通滤波器用于提取包络状特征。将一组三角带通滤波器的幅值乘以频率响应，得到每个三角带通滤波器的对数能量，从而对不同音调或音高的语音信号进行非线性感知。与公共线性频率F相关的Mel频率M(F)由下式[16]表示:

M(F) = 1125 * ln (1 + F / 700) ... ... ... (1)

然后对对数能量进行离散余弦变换(DCT)，使其具有不同的梅尔尺度倒谱系数。DCT将信号从频域转换为时域。由于其特征与倒谱相似，因此被称为梅尔尺度倒谱系数。MFCC可以作为语音识别的特征。为了获得更好的性能，可以通过添加日志能量来生成并执行delta运算。MFCC的新特点是可以产生δ倒谱，它在信号能量的时间导数方面具有优势。它可用于MFCC计算能量的速度和加速度。基于MFCC的说话人识别系统的MATLAB实现^®可以显著提高训练和识别的准确率，并在较高识别率[17]下减少计算所需的数据。

3使用LPC进行特征提取

线性预测编码(Linear predictive coding, LPC)方法是[18]在20世纪60年代提出的一种用于语音跟踪的方法，因为它所代表的声道参数和数据量非常适合语音压缩。[19]。本文将一种改进的LPC系数方法用于语音处理，以压缩形式表示语音的谱包络。该方法可以在低比特率下编码出高质量的语音，并通过描述语音信号的强度、残差信号来准确估计语音参数。信息可以存储或传输到其他地方。提出了一种基于方言无关小波变换(WT)的阿拉伯数字分类器，该分类器用LPC进行小波变换，用概率神经网络(PNN)[20]进行分类。用最近邻法对男女演讲者进行分类，从生成的平均值中计算男女的均值的欧氏距离。音频部分从印度视频歌曲[21]中提取，共计算了13个mfc和13个lpc系数。

LPC处理器有四个基本步骤，预强调，即将数字化语音信号压平，使信号处理不容易受到有限精度的影响。在帧阻塞的第二步，输出信号被阻塞成N个样本的帧，相邻帧之间用no分隔。M个样本。在窗口，有窗口每个单独的帧，以尽量减少信号不连续在每个帧的开始和结束，在MFCC相同。自相关分析将自动关联加窗信号的每一帧，以获得最高的自相关值。在LPC分析的最后一步，利用Durbin方法将p + 1帧自相关转换为LPC参数集。方程中，信号x(n)的每个样本都表示为前一个样本x(n−i)的线性组合，称为线性预测编码[22]。这里ai是预测系数。

结合LPC和MFCCs系数可用于动态或运行时特征提取。这两者结合起来可以作为说话者情绪的特征向量，如愤怒，无聊，中性，快乐和悲伤[23]。印地语字母表是使用以辅音元音辅音(CO3VCO3)[24]模式出现的音节来进行情感识别的。

四、结果分析

矢量量化(VQ)用于将训练数据与新输入数据进行比较。它是一种经典的量化技术，允许通过向量的分布来建模概率密度函数。它将一组称为向量的点划分为几组，这些组之间最接近的点的数量大致相同。VQ的密度匹配特性对于识别大数据和高维数据[25]的密度是非常强大的。所有数据点都用它们最接近质心的指数来表示，这可以用于有损数据校正和密度估计。矢量量化是自组织映射模型。

利用MFCC和LPC对古吉拉特语词进行特征提取。通过记录古吉拉特语单词的发音来获得矢量量化的训练数据集。将输入的数据与已经存储的数据集进行比较。两种算法对三个词的比较如下图所示。

LPC的识别准确率达到85%以上，如图1所示。MFCC的识别准确率达到95%以上，如图2所示。

因此，MFCC可以为古吉拉特语在语音识别中的应用带来更好的特性。将匹配训练数据库的输入语音转换为相关文本，结果如下图2所示(a)描述数字8，(b)描述数字3，(c)描述单词“Gujarati”，(d)描述单词“attack”，(e)描述单词“Gujarati”和“Ahmadabad”，(f)描述单词“attack”和“Hiral”(一个名字)。

五、结论与未来工作

该方法用于古吉拉特语孤立语音识别系统的实现。采用MFCC和LPC作为语音特征提取器。最后用VQ法对算法进行了测试，结果表明MFCC是一种更准确的语音信号特征提取方法。目前的工作仅限于古吉拉特语的音素。进一步研究利用MFCC特征提取算法和隐马尔可夫模型(HMM)对连续语音识别进行测试和建模。超大词汇量语音识别(VLSR)采用MFCC和PLP特征提取算法，HMM结合人工神经网络(ANN)进行更好的分类。

鸣谢

特别感谢BVM工程学院的Mayur m.v agad教授，他坚持不懈地追求真诚和卓越的工作。

数字一览


图1	图2	图3	图4

参考文献

Gaurav, DevanesamoniShakinaDeiv, Gopal Krishna Sharma, Mahua Bhattacharya，“印地语专用连续语音识别系统的开发”，信息科学学报，2004,27 (1):1 -43.，2012年8月

Ankit Kuamr, MohitDua, TriptiChoudhary，“使用高斯混合HMM的连续印地语语音识别”，IEEE电气、电子和计算机科学学生会议, 2014年

CiniKurian, KannanBalakrishnan，“基于HMM和PLP倒谱系数的Malayalam隔离数字识别”，国际先进信息技术杂志(IJAIT)2011年10月，第1卷第5期，doi: 10.5121/ijait.2011

CiniKurian, KannanBalakriahnan，“基于PLPCEPSTRAL系数的马拉亚拉姆语连续语音识别系统”，国际计算与商业研究杂志(IJCBR) ISSN: 2229-6166第三卷第1期2012年1月

M. Chandrasekar, M. Ponnavaikko，“泰米尔语语音识别:一个完整的模型”，电子杂志，技术声学，http://www.ejta.org2008

Siddheshwar S. Gangonda, PrachiMukherji博士，“使用MFCC和DTW特征的马拉地语数字识别语音处理”国际工程研究与应用杂志(IJERA) ISSN: 2248-9622工程技术新兴趋势全国会议，VNCET-30 3月12日

D. Nagaraju等人，“泰卢固语的情感语音合成”，印度计算机科学与工程杂志， ISSN: 0976-5166，卷2 No. 4, 2011年8月- 9月

Vivek Sharma, Meenakshi Sharma，“自动语音识别技术的定量研究”，国际科学技术进展杂志(IJAST)第1卷第1期2013年12月

Javed Ashraf, naveeddiqbal, NaveedSarfrazKhattak, AtherMohsinZaidi，“使用HMM的独立说话人乌尔都语语音识别”，自然语言处理与信息系统计算机科学课堂讲稿“，， vol . 6177, 2010, pp 140-148

C. K. Kumbharana，“语音到文本转换的语音模式识别”，Etheses .saurashtrauniversity。Edu /337/1/ kumbharana_ck_ thesis _cs .pdfCK Kumbharana - 2007

RecordPad录音软件- NCH软件www.nch.com.au recordpad

Leena R Mehta, s.p.m hajan, Amol S Dabhade，“马拉地语孤立词识别系统的MFCC和LPC的比较研究”国际电气、电子和仪器工程高级研究杂志第2卷第6期2013年6月

[13] Shikha Gupta, JafreezalJaafar Wan, Fatimah Wan Ahmad, Arpit Bansal，“MFCC特征提取”，信号与图像处理:国际期刊(SIPIJ)第四卷第四期2013年8月出版

J.X. Jin, Debnath Bhattacharyya，”基于MFCC和BP神经网络的音乐分类研究第二届信息、电子和计算机国际会议论文集，为AISR系列的一部分，ISSN 1951-6851，卷59,2014

Archit Kumar, CharuChhabra，“使用专家系统(AI)和模式识别(MFCC和改进的VQA)的入侵检测系统”，国际计算机科学与管理高级研究杂志，第二卷，第五期，2014年5月

小君王;蓝田李;王董;郑廷峰，“时变fbank加权MFCC在基于i矢量的扬声器验证中的泛化特性研究”，汉语口语加工(ISCSLP)， 2014年第九届国际学术研讨会， vol.， no。，pp.423,423, 12-14Sept. 2014

Ganchev T, Fakotakis N, Kokkinakis G.“各种MFCC实现对峰值验证任务的比较评估”，载于:Specom学报，2005;1:191-194。

黄晨晨，龚伟福文龙，冯冬玉，“基于MFCC加权fisher比的说话人识别研究”，机械电子科学，电气工程与计算机(MEC)， 2013年国际会议论文集， vol.， no。，pp.904,907, 20-22Dec. 2013

K. Daqrouq, M. Alfaouri, A. Alkhateeb, E. Khalaf1和A. Morfeq，“小波LPC与神经网络的阿拉伯语语音数字识别系统”，英国应用科学与技术杂志，ISSN: 2231-0843，卷。: 4, Issue。: 2014年3月8日

K Rakesh, S Dutta, K Shama，“在LABVIEW中使用语音处理技术进行性别识别”，国际工程技术进展杂志2011年5月

TusharRatanpara, Narendra Patel“从印度视频歌曲中使用MFCC和LPC系数进行歌手识别，新兴ICT为未来搭建桥梁——第49届印度计算机学会年会(CSI)第1卷，智能系统和计算的进展，页275-282，卷337,2015

K. Ravi Kumar, V.Ambika, K. suri Babu，“基于倒谱分析的连续语音情感识别”，国际工程研究与应用杂志，第2卷第5期，第1797-1799页，2012年9月- 10月

邦萨尔美国;Dev A，"印地语情感语音数据库"东方COCOSDA与2013亚洲口语研究与评价会议(O-COCOSDA/CASLRE)联合举办，2013国际会议，卷。2013年11月4日

宋子文;Rosenberg, Aaron E.， Juang, Bling-Hwang, Rabiner, Lawrence R.，“报告:说话人识别的矢量量化方法，”美国电话电报公司技术杂志，新泽西州，默里希尔，vol.66,不。2，pp.14,26, March-April 1987

TarunPruthi, Sameer Saksena, Pradip K Das，， "Swaranjali:使用VQ和HMM的印地语孤立词识别计算与商业研究杂志，1993