所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

利用MFCC和线性支持向量机分类器对心音进行生物特征分析

斯瓦特时1Tanuja Kashyap报道2
  1. 印度恰蒂斯加尔邦杜尔格比莱理工学院ETC系PG学生[I & C]1
  2. 印度恰蒂斯加尔邦杜尔格比莱理工学院ETC系助理教授2
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际电气、电子和仪器工程高级研究杂志

摘要

心音图(PCG)信号作为一种生物特征,是一种新型的用户识别方法。本文研究了PCG信号的生物特征的适用性,因此可以将其包括在自动识别系统使用的生理标志中。使用PCG信号进行用户识别是一种非常可靠的方法,因为心音是由内部器官产生的,与其他识别系统相比不容易伪造。梅尔频率倒谱系数{MFC使用Cs}进行特征提取,然后使用支持向量机(Support Vector Machine, SVM)作为分类器,对这些特征向量进行分类来识别一个人。分析并讨论了支持向量机对线性核函数的性能。

关键字

生物特征,核,mfc,心音图,支持向量机

介绍

近年来,在人事安全、国防、金融、机场、医院等许多重要领域,识别用户已变得非常重要。因此,必须使用可靠且健壮的身份验证和识别系统来识别用户。事实上,基于性能的生物识别系统,即一个人使用自己的生物识别技术执行预定义的任务,比基于知识(例如,密码)或基于财产(例如,密钥)的访问控制方法更受欢迎。因此,基于个人行为和/或生理特征提供识别的传统生物识别系统,如指纹、虹膜、面部和语音,正变得越来越流行[1,7,8,13]。人的心音是一种自然信号,数千年来一直被应用于医生的听诊,用于健康监测和诊断。以往对心音的研究主要集中在心率变异性方面。在过去的4年里,许多研究人员研究了使用心音作为生物特征识别生理特征的可能性[2,4,5,6,9,15,16]。基于pcg的人体生物特征提供了几个理想的特性。首先,PCG不是永久性的,很难伪造,因此减少了伪造。此外,心音是相对容易获得的,也固有地提供了主体活性的保证。
心音描记术是心脏泵血时发出的声音或振动。在本文中,我们使用心音(PCG信号)作为用户识别的生物特征。基于心音[12]的以下特性,心音信号的使用比其他生物识别技术有许多优势:
1.普遍性:每个活着的人都有一颗跳动的心脏。
2.可测量:PCG信号可以用电子听诊器进行数字捕获和测量。
3.漏洞:与其他生物识别技术不同,心音不容易复制或再现,因为它是基于从身体获得的内在动态信号。未经当事人同意,不能采集心音。此外,为了再现心音,必须创建心脏及其周围环境的解剖结构,因为心音取决于身体的解剖结构。
4.独特性:心音取决于个人的健康状况、年龄、大小、体重、身高、心脏结构以及遗传因素。患有同一种心脏病的两个人的心音也不同。
5.简单:此外,心音很容易获得,将听诊器放在胸部。
到目前为止,心音的主要优点是高通用性和低规避性。第一点是不可否认的,客观正确的。如果我们的身体不发出心音,就意味着我们不是活着的,因此任何身份验证或现场验证都是可能的。这一特性与所有依赖于对我们生命至关重要的器官(如大脑)的生物特征相同。心音生物测量的主要缺点可能是性能较低,最重要的是,它作为生物测量特性的整体不成熟。当然,心音生物测量技术是一项新技术,因此它目前的许多缺点可能会在未来的研究工作中得到解决。

相关工作回顾

在过去的几年中,不同的研究小组一直在研究将心音用于生物识别的可能性。在本节中,我们将简要描述它们的方法。
[12]是心音生物测量领域最早的作品之一。在本文中,作者使用HTK语音识别工具包获得了良好的识别性能,研究了系统使用不同特征提取算法(MFCC, LFBC)、不同分类方案(矢量量化(VQ)和高斯混合模型(GMM))的性能,并研究了帧大小和训练/测试长度的影响。在测试了这些参数的许多组合后,他们得出结论,在他们的数据库中,性能最好的系统由LFBC特征(60 cepstra + log能量+ 256ms无重叠帧)、GMM-4分类、30秒的训练/测试长度组成。[2]的作者(其中一人致力于[12])进一步探索了为心音寻找一个良好且具有代表性的特征集的想法,探索了7组特征:时间形状、频谱形状、倒谱系数、谐波特征、节奏特征、心脏特征和GMM超向量。然后,他们将所有这些特征输入到一种称为RFE-SVM的特征选择方法中,并使用两种特征选择策略(最优和次优)在他们考虑的特征中找到最佳的特征集。结果以相等错误率(EER)表示,对于自动选择的特征集,相对于在每个单独的特征集上计算的EER更好。在[9]中,作者描述了一个实验系统,其中信号首先进行下采样,并使用离散小波变换进行处理,使用daubecies -6小波,然后选择D4和D5子带(34至138 Hz)进行进一步处理。经过归一化和帧化步骤,作者从信号中提取了一些能量参数,他们发现香农能量包络图是提供最佳性能的特征。[16]的作者研究了ECG和PCG用于生物特征识别的用法,但我们将只关注与PCG相关的部分工作。心音使用daubecies -5小波处理,直到第5个尺度,只保留第3、4和5个尺度的系数。 They then use two energy thresholds (low and high), to select which coefficients should be used for further stages. The remaining frames are then processed using the Short-Term Fourier Transform (STFT), the Mel-Frequency filterbank and Linear Discriminant Analysis (LDA) for dimensionality reduction. The decision is made using the Euclidean distance from the feature vector obtained in this way and the template stored in the database. They test the PCG-based system on a database of 21 people and their combined PCG-ECG systems have better performance. The authors of [15] filter the signal using the DWT; then they extract different features: auto-correlation, cross-correlation and cepstra. They then test the identities of people in their database using two classifiers: Mean Square Error (MSE) and k-Nearest Neighbor (kNN). On their database, the kNN classifier performs better than the MSE one. In the march of the PCG recognition’s progress, the proposed methodology for PCG recognition in thi paper is presented in the next section.

心音生理学

人的心脏是一个有四个腔室的泵,上面的两个腔室称为心房,用于从静脉中收集血液,下面的两个腔室称为心室,用于将血液泵出到动脉,如图1(a)所示。
这两组瓣膜控制着血液流动:心房和心室之间的av瓣膜(二尖瓣和三尖瓣),心室和心脏动脉之间的半月形瓣膜(主动脉瓣和肺动脉瓣)。这些瓣膜周期性地关闭和打开,使血液只向一个方向流动。心脏的机械活动,包括血液流动,腔壁的振动和瓣膜的打开和关闭是产生pcg的主要原因。在每个心脏周期中,血液流经心脏瓣膜时通常会产生两种声音(见图1(b))。第一个心音S1是一种低沉的、稍长时间的“lub”,由心室收缩时二尖瓣和三尖瓣突然关闭引起的振动引起,心室收缩时将血液泵入主动脉和肺动脉。第二种声音S2是一种更短、音调更高的“dup”,当心室停止喷射、放松并允许主动脉和肺动脉瓣在心室收缩结束后关闭时发出。它们是“lubb-dupp”的声音,被认为是心跳的声音。S1的平均周期为100ms ~ 200ms,频率分量在25Hz ~ 45Hz范围内。S2持续时间约为0.12s,频率为50Hz,通常在持续时间上比S1短,在频率上比S1高。

特征提取:MFCC

特征提取是一种特殊的降维形式,它将输入数据转换为集合特征。心音是一种声音信号,目前用于人类识别任务的许多技术都借鉴了语音识别技术。声音信号特征提取的最佳和流行的选择是梅尔频率倒谱系数(MFCC),它将信号映射到非线性的梅尔尺度上,模拟人类的听觉。尽管线性滤波器组在较低的频率范围内,MFCC系统仍优于倒谱系数。使用梅尔频率倒谱系数(MFCC)作为PCG生物特征系统的特征集的想法来自于MFCC对说话人识别[17]的成功,并且因为PCG和语音都是声学信号。MFCC是基于人类的听觉感知,无法感知超过1Khz的频率。换句话说,在MFCC中,是基于人耳临界带宽随频率的已知变化[3,10]。MFCC has two types of filter which are spaced linearly at low frequency below 1000 Hz and logarithmic spacing above 1000Hz. Mel-frequency cepstrum coefficients (MFCC), which are the result of a cosine transform of the real logarithm of the short-term MFCCs are provide more efficient. It includes Mel-frequency wrap-ping and Cepstrum calculation. The overall process of the MFCC [18, 19] is shown in Figure 2.
如图2所示,MFCC由7个计算步骤组成,每个步骤都有其作用和数学方法,下面简要讨论:
步骤1:预强调:预强调的这一步通过滤波器处理信号,并补偿在人类发声机制中被抑制的高频部分。语音信号s(n)被发送到高通滤波器,高通滤波器在更高的频率下增加信号的能量:
图像
这里,(n)是输出信号,a的值通常在0.9和1.0之间。滤波器的z变换为:
图像
步骤2:帧:心音信号是准静止的(随时间缓慢变化),即在短时间内检查信号时,信号是相当静止的。因此,信号通常在短时间段内进行分析,这实际上意味着信号被阻塞在通常为20-30毫秒的帧中。可选重叠的1/3~1/2帧大小,这样做是为了不丢失任何信息由于窗口。信号被分成N个采样帧,相邻帧之间用M (M
步骤3:汉明加窗:在信号被帧后,每一帧都乘以一个窗口函数W(n)。加窗是为了避免由于信号截断而产生的问题,并有助于信号的平滑。通常使用汉明窗口。如果将窗口定义为W (n), 0≤n≤n -1,则加窗信号的结果如下所示:
图像
式中,N =每帧样本数;Y (n) =输出信号;X (n) =输入信号。
如果一帧中的信号用s (n)表示,n = 0…n -1,则经过汉明加窗的信号为s (n)*w(n),其中w(n)为定义为:
图像
步骤4:快速傅里叶变换:这种数学方法用于将时间的函数转换为频率的函数。傅里叶变换对声门脉冲U[n]与声道脉冲响应H[n]的时域卷积进行了变换。给定的方程支持上述说法:
图像
如果X (w) H (w) Y (w)分别是X (t) H (t) Y (t)的傅里叶变换。
步骤5:MEL滤波器组处理:在这一步中,使用窗口将上述获得的频谱的功率映射到MEL标度上。一组三角形滤波器用于计算滤波器频谱分量的加权和,使过程的输出近似于梅尔尺度。每个滤波器的幅频响应是三角形的,在中心频率处等于单位,在两个相邻滤波器的中心频率处线性下降至零。然后,每个滤波器的输出是其滤波后的光谱分量之和。然后用下面的公式计算给定频率f (Hz)下的Mel:
图像
该图显示了一组三角形滤波器,用于计算滤波器频谱分量的加权和,使过程的输出近似于梅尔尺度。
步骤6:离散余弦变换:mel谱系数是实数(它们的对数也是实数),这个过程使用离散余弦变换(DCT)将对数mel谱转换为时域。MFCC参数计算为:
图像
步骤7: δ能量和δ频谱:声音信号和帧的变化,如共振峰在其过渡时的斜率。因此,需要添加与倒谱特征随时间变化相关的特征。从时间样本t1到时间样本t2,窗口中信号x在一帧中的能量表示如下式:
图像

分类:支持向量机

支持向量机(SVM)是一种新的强大的模式分类技术,它是基于Vapnik[20]提出的统计学习理论。支持向量机对线性可分数据和非线性可分数据都同样有效。通过使用拉格朗日乘子,整个问题归结为找到一个减少误差并成功分类训练数据的函数。SVM的主要优势是它能够对未知数据点进行高精度分类,因为它工作在最大边缘超平面的概念上。应用结构风险最小化(SRM)、二次规划理论和核函数思想改进了小样本学习问题的分类器性能。在许多实际应用中,支持向量机显示出较好的泛化性能。
在说话人识别过程中使用的分类方法可以分为两类:统计方法,包括高斯混合模型和判别方法,其中包括多层感知器和多项式分类器。实验结果表明,支持向量机可以实现大于或等于其他分类器的性能,同时需要明显更少的训练数据来实现这样的结果[11,14,20]
SVM决策函数定义如下:
其中,y为未分类的测试向量,xi为支持向量,αi为支持向量的权重,b为常数偏置。,为核函数,隐式映射到高维特征空间。支持向量是通过优化过程从训练样本中获得的,因此它们是训练样本的子集。本文采用一对一策略支持向量机分类方法,采用线性支持向量机分类器,定义如下:

仿真结果与讨论

通过从数据库[21]中选取30个说话人,实现了所提出的人体识别系统的实验结果。所有的心音信号都是无噪声的,采样频率为44100 Hz。数据库中的每个心音大约为9秒。利用MATLAB R2008a对这些心音进行分析。本文提出的识别系统总体性能总结如下表所示:
表1所示为不增加识别率时识别率的变化情况。其中TPR为真阳性率,TNR为真阴性率,FPR为假阳性率,FNR为假阴性率。真阳性率(True-positive Rate, TPR)描述了注册用户的身份识别事务的比例,其中用户的正确标识符是返回的匹配项之一。假阴性率(False-negative Rate, FNR)描述了注册用户的身份识别事务的比例,其中用户的正确标识符不在返回的匹配项中。
在图5中,它显示了No。人数vs.培训时间。该图显示了数据库中人数增加对SVM训练时间的影响。随着说话人数量的增加,分类器计算过程所需的时间也在延长。
在图6中显示了No. 2的曲线图。人与各种性能指标,如准确性,精密度,测量和召回。准确度是真实结果(真阳性和真阴性)在总体中的比例。另一方面,精确度或阳性预测值被定义为真阳性结果与所有阳性结果(真阳性和假阳性)的比例。召回量定义为相关检索实例的百分比。F-measure是精密度和召回率的调和平均值

结论

本文探讨了心音信号用于人体身份验证的可能性,并提出了MFCC和SVM的应用研究。通过各种参数对该技术的性能进行了测量。因此,我们可以得出结论,心音可以作为一种生物特征,与其他生物特征识别系统相比,它是可靠的,因为它不容易模拟或复制。心音可以单独用于识别,也可以与其他可用的识别系统结合使用,使整个系统易于实现和可靠。PCG信号易于捕获,可实现系统的实时识别设计。

表格一览

表的图标
表1

数字一览

图1 图2 图3
图1 图2 图3
图4 图5 图6
图4 图5 图6

参考文献






















全球科技峰会