所有提交的EM系统将被重定向到网上投稿系统。请作者将文章直接提交给网上投稿系统各自期刊的。

基于概率分布的符号熵在心音分析中的应用

公使谢峰C13.*陈军S1,马勇2,科学S1;3.和虞奇J1

1南京邮电大学电子科学与工程学院电信江苏南京210003;

2南京理工大学计算机科学学院,江苏南京210094

3.江苏省射频集成与微封装工程实验室,江苏南京210003

*通讯作者:
陈公使谢峰
南京邮电大学电子科学与工程学院电信江苏南京210003;
电话:
66-2-561-1728
电子邮件:
(电子邮件保护)

收到:08/28/2015接受:10/28/2015发表:10/30/2015

更多相关文章请访问raybet01

摘要

心音是一种重要的生理信号,它包含了大量的生理和病理信息。根据心音的特点,提出了基于概率分布的符号熵。该算法突破了线性约束。一方面,在第一心幅值分布较密集的区域分配较多的符号,在稀疏区域分配相对较少的符号,从而达到减少数据冗余的目的;另一方面,它采用自适应的方法来确定符号集的大小。符号熵对心音信号的变化更加敏感,能够快速捕捉到心音信号的非线性异常状态。因此,该算法可以使非平稳突变干扰和序列概率分布对熵的影响很小或没有影响。仿真结果表明,该算法不仅具有显著的可行性和有效性,而且为心力衰竭的快速诊断提供了一种新的途径。

关键字

生物物理学,心音,符号熵,概率分布。

介绍

研究各种生理信号是疾病诊断和治疗的一种重要手段。心音信号是一种内部信号,是最重要的生理信号之一。它在听诊和辅助治疗方面的应用历史非常悠久[1].心音是机械振动的复合声,它含有心脏不同部位(如心房和心室、血管和心脏瓣膜)功能状态的大量生理病理信息,直接反映大血管和心脏系统的机械运动状态,与人体病理密切相关。心音信号的检测与分析在临床医学实践中具有重要的应用价值。

生物信号的时间序列包含着复杂的波动,是机体生理系统活动状态的一种外在表现。疾病和衰老过程降低了人体生理系统对外界环境的适应能力,使时间序列中所含信息量发生变化[2].但对体育活动的理解并不完全清楚。为了更详细地了解人体的生理活动,我们需要进行各种各样的实验,并对时间序列分析方法进行深入的研究。

国内外对心音与心肌收缩能力的关系进行了研究。Rice和Doyle经过大量实验论证了第一心音振幅的大小与心肌收缩能力密切相关,并利用心音检测仪器在手术室对患者心肌收缩力的监测效果[3.].Sun通过讨论第一心音振幅与心肌收缩功能的关系,提出了一种评价心功能的有效方法[4].Bu的研究表明,心肌收缩力的变化可以用第一心音振幅波动信号来描述[5].这种波动信号包含了大量的心脏生理和病理信息,研究波动趋势可以评估心脏心肌收缩能力,加深对心脏自主神经机制的认识。

近年来,通过不断探索,提出了多种测量非线性时间序列复杂性的方法,如相关维数、Lyapunov指数、样本熵和非线性预测等。6].然而,这些方法在使用中都有限制条件。如相关维数和李雅普诺夫指数等,都必须要求时间序列的长度足够长。时间序列的局部趋势会影响样本的熵,影响原始数据的可能性。

传统的样本熵受阈值和概率分布的影响,为了减少非平稳突变干扰和样本熵概率分布的影响,文献[7结合符号动力学和样本熵,提出了概率熵等符号样本。符号时间序列分析是建立在符号动力学理论和混沌序列分析基础上的一种非线性分析方法。其实质是对幅度域的时间序列进行粗粒化,即将幅度域的模拟量映射到由有限个符号组成的符号集,然后对转换后的符号序列进行动态分析。虽然在符号化的过程中会损失一些细节,但这种处理可以显著提高操作速度。同时,如果符号方法选择得当,既能反映原始时间序列的动态特征,又能大大降低噪声的影响。因此,在符号动力学分析中,最关键的一步是如何利用原始时间序列确定合适的符号分区,在不损失原始序列的情况下保证信号的动态特性。

根据心音时间序列的特点,结合非线性分析的相关理论,提出了一种基于概率分布的符号熵(PDSE)算法。该算法旨在实现:1、心音符号序列能够完整地反映心音原序列的时序关系,消除心音原序列概率分布对符号处理的影响;2、在符号化过程中采用自适应的方式来决定符号集的大小,自适应的目的是在第一心音振幅相对密集的分布区域内分布更多的符号,在相对稀疏的区域内分布更少的符号,这样可以突破传统均匀符号的线性约束,减少数据冗余,提高符号的利用率。显然,这种有针对性的算法使得符号熵对心音数据的变化更加敏感,能够快速捕捉到心音信号的非线性异常状态。仿真结果表明,该算法具有显著的可行性和有效性,为心力衰竭的无损诊断提供了一种新的思路。

基于概率分布的符号熵

心音的自适应符号方法

心音信号的一个周期可以用式(1)来描述:

图像(1)

中,年代1,年代2分别是第一和第二心音信号;,s3.,年代4分别是第三和第四心音信号,而对它们的研究相对较少;年代5是代表心的喧嚣;k表示复合系数[8].

心音呈现近似的周期特征。假设第j周期的第一个心音振幅为年代1(j),那么首先心音信号振幅顺序x(我)在N个循环范围内,可表示为式(2):

图像(2)

中,δ(我)为单位采样序列。的收获x(我)展出于图1。标记心音信号归一化过程中第一心音信号幅度序列的最大值,如图1a所示;在正轴上找到最大值,如图图1 b

pure-applied-physics-gain-first-heart-sound-amplitude

图1:(a) S1区域的第一心音振幅增益,(b) S1最大值。

大多数心衰患者的主要问题与心肌收缩能力下降有关。在迷走神经和交感神经的调控下,心肌在许多方面表现出收缩性、变时性和传导性特征。由于任何心脏疾病都有可能发展为心力衰竭,因此在心血管疾病治疗过程中早期诊断心力衰竭,评估心肌收缩功能变化的过程具有重要意义。

1000个心动周期内的第一个心音振幅序列如图图2

pure-applied-physics-wave-pattern-first-heart-sound

图2:第一个心音振幅序列的波形。

首先对幅度变化较小的信号进行符号化处理,然后对符号序列进行统计处理。符号的基本思想是根据给定的时间数据序列,用符号集的符号来标记时间序列的每个数据点。

国内外文献中提出了多种符号算法,如基于最大变化聚类的算法、基于熵的算法、基于符号伪相邻节点的符号算法、基于小波分解的符号算法等[9].如果信号分布均匀,采用上述方法进行符号化,可以得到理想的结果。从图2年代1振幅序列具有非均匀分布特征。大多数数据值在0.65 ~ 0.75范围内,采用上述方法对第一心音振幅序列不合适。因此,本文提出了一种自适应符号方法来改善这一不足。

假设振幅序列是图像,对应的符号序列为图像,符号集大小为n(初始值为1)。心音自适应符号步骤如下:

步骤1:对第一心音振幅序列的振幅大小进行排列x(我)从小到大,排序为区间证券交易委员会11,进行数理统计,得到概率密度函数f(x);

步骤2:使用的两个端点的平均值证券交易委员会11把自己分成两部分,执行n=n+1,得到新的区间,依次到每个区间图像,区间I的两个端点值记为证券交易委员会倪,证券交易委员会倪,r

步骤3:根据n个数符号的映射关系,如式(3)来表示符号序列:

图像(3)

步骤4:生成符号序列图像子串组合序列集的长度P表示为图像。子串组合的个数为np它包含符号0,1,…n - 1。每个子串出现的次数为NT,其概率为式(4):

图像(4)

符号动力学信息熵Sh决定是否继续划分,Sh可由式(5)得到[10]

图像(5)

第五步:制作方程(6)

图像

N≥2 ..(6)

选择阈值ε和ε > 0当ΔSh≤ε时,停止符号。否则,找到i图像可以是max。时间间隔证券交易委员会可以再除以两部分的平均值,令n=n+1。取消原有的分类,重新分配新的符号,重复步骤3、4、5。

符号化的主要任务是设置尽可能用最少的符号保留有效的信息系统。符号自适应分类,目的是将符号分布多的区间向密集的幅度分布,符号分布少的区间向稀疏的数据分布,从而使信息丰富的数据密集区间对数据的变化更敏感,更有利于捕捉心音信号的非线性异常状态。

心音信号的参数设置

自适应符号过程由N和决定ε。Sh可以反映符号化后子串的丰度和分布特征。随着符号集的增加,子串模型增加,分布更加分散,Sh增大。综合考虑,选择合适的阈值(当Sh增幅小于给定阈值时,符号结束)是必要的。增大Substring p的长度会导致计算量和数据长度的增加,但对结果没有影响。一般p不小于3,本文中p=3。对于原序列长度N,一般要求N = Np

心音信号是近似的周期性弱生理信号,第一心音信号幅度序列的数值分布较为集中。如果选择得当,阈值将在算法性能和时间复杂度之间取得很好的平衡。每隔1小时取一次心音信号,提取5次1幅值序列。令ε =2,步长在0.05处减小,得到散点图振幅序列,如图图3。由此可知当ε≤0.45时,n是稳定的。因此,在自适应符号过程中,ε =0.45。

pure-applied-physics-scatterplot-amplitude-sequence

图3:s1振幅序列的散点图。

自适应符号算法不仅适用于心音信号,而且适用于不相关的完全随机时间序列。高斯白噪声序列的长度为N,符号集的大小为N,令p = 3,可得式(7)、式(8):

图像(7)

图像(8)

N≥2

理论上,对于高斯白噪声序列,ΔSh的值可以用表1,理论曲线在图4。

n 2 3. 4 5 6 7 8 9 10
Δ上海 2.0794 1.2164 0.8630 0.6694 0.5470 0.4625 0.4006 0.3533 0.3161

表1:Δ的值上海

pure-applied-physics-theoretical-curve

图4:ΔSh的理论曲线

使高斯白噪声序列的长度为3000,得到的理论曲线ε−n表示图5。使ε分别为0.33、0.38、0.43、0.50、0.60、0.70、1.0、1.70,得到8个红色飞溅点,说明上述理论的有效性。结果表明,所提出的符号化方法具有较好的统计性能。

pure-applied-physics-theoretical-curve

图5:ε−n的理论曲线

基于概率分布的熵算法

符号序列分析侧重于对每个符号的分析,提取心脏动力学系统的隐含特征。样本熵利用信息递增率来描述时间序列的复杂性,将自适应符号化与样本熵相结合,提出了基于符号概率分布的符号熵(PDSE)。

符号序列的符号熵计算方法类似于时间序列的样本熵计算方法。

对于符号序列图像, PDSE的算法如下:

1 .嵌入sy在m维相空间中,可以得到符号向量:

图像图像

其中[11, L=1, m=3。

步骤2:对于1≤N

图像(10)

图像

其中,表示图像它等于图像

步骤3:计算平均值图像

图像

步骤4:嵌入维度添加到m+1,重复步骤1,2,3,我们可以得到图像,所以:

图像

多尺度分析

为了突破单尺度符号熵的限制,根据心音信号的特点,首先心音信号的幅度序列也可以进行多尺度分析。给定比例因子γ,我们有[12]:

图像图像

对于不同的γ,计算新序列的PDSE熵y (j)(γ)

仿真实验

实验数据的获取

从我院心音数据库中选取健康心音患者40例作为健康组(年龄20~56岁),从南京某医院收集心衰心音患者36例作为心衰组(年龄50~71岁)。利用物理方法采集心音,发明了肩带式心音采集器(图6),产品核心技术已申请中国发明专利(专利号:公号CN2013093000306700)。采样频率为11025hz,采样次数为16次,采集时间为45分钟,结果保存为wav格式。采用db6小波对心音信号进行降噪,然后将每个长心音信号缩短为3个15分钟,共228例实验数据。

pure-applied-physics-Shoulder-belt-heart-sounds

图6:肩带式心音收集器。

结果与分析

提取每个第一心音信号幅度序列,利用PDSE算法计算每个幅度序列的心音声级复杂度。如图7所示,两组心音样本在不同时间尺度上的复杂度误差柱状图。

图7,可以看到,在原始量表中,心力衰竭组的PDSE明显低于健康组,p < 0.01。由于低标度主要代表信号的高频成分,而高频成分主要与人体迷走神经的调节有关。这说明心衰的发生使迷走神经活性降低,从而降低了自主神经对心血管系统的调节功能。

与健康组比较,心力衰竭组在各量表上PDSE熵均显著降低(p < 0.05)。由于高标度在时间标度上主要代表低频分量,而低频分量主要与机体交感神经的调节有关,它解释了心衰的发生,同时也降低了交感神经的活动。随着尺度的增大,迷走神经变弱,交感神经功能增强。在图7仅在不同量表上,心力衰竭组与健康组的PDSE差异在高量表上有所减小。这说明心力衰竭的发生对自主神经的影响可能首先影响迷走神经,因此低时间尺度PDSE值明显较低,因此提出高心力衰竭组与健康组在PDSE时间尺度上的差异较小。Xiao在心肌收缩功能和心音研究中提出了基于幅度变化规律的心脏收缩变异性(cardiac contraclity variability, CCV) [13].心肌收缩功能降低可引起CCV降低。这与本文利用PDSE对第一心音信号幅度序列进行分析得出的结论一致。

pure-applied-physics-Multi-scale-analysis-error-bar

图7:多尺度分析误差柱状图。

Fisher判别法判别两个种群[j]14],选取PDSE的1、2上的刻度作为检验指标,分别记为x1, x2,判别函数为式(14):

图像(14)

将108例心力衰竭、120例健康第一心音信号振幅序列在1、2时间尺度上的振幅序列的PDSE值代入式(14),得到表2,测试结果见表3。评价指标包括敏感性(Sen)和特异性(Spe)。敏感性是指心力衰竭组诊断病例数与总心力衰竭组的比值。具体指健康组确诊病例数与健康组总病例数之比。文献[15]采用符号时间不可逆性指标DE对心电信号进行心衰分析,灵敏度为93.2%,特异度为94.4%。通过对比,本文的判别方法的灵敏度和特异度均有明显提高,且诊断简便,便于临床应用。

检测系数 价值
C1 0.125
C2 -0.004

表2:检测系数。

样本大小 评价指标
结果 心力衰竭(108) 健康(120) Spe
心脏衰竭 105 4 97.2% 96.7%
健康的 3. 116

表3:心力衰竭检查结果。

结论

根据心脏生理信号的特点,提出了一种适用于心音信号分析的基于概率分布的符号熵(PDSE)算法。该算法实现了:

(1)得到的符号序列能反映心音原序列的时序关系,并能消除心音原序列概率分布对符号处理的影响;

(2)打破传统均匀符号化的线性约束,在第一心音振幅相对密集的分布区域多分布符号,在相对稀疏的区域少分布符号;

(3)在符号化过程中,采用自适应的方式决定符号集的大小。

显然,这种有针对性的算法,使得符号熵对心音数据的变化更加敏感,能够快速捕捉到心音信号的非线性异常状态。通过健康组和心力衰竭组心音模拟实验,基于该算法的心力衰竭诊断敏感性和特异性评价指标分别为97.2%、96.7%,表明该算法在心力衰竭研究中具有潜在的应用价值,为心力衰竭的无损诊断提供了一种新的思路。

确认

国家自然科学基金(批准号:61271334)资助。

参考文献

全球科技峰会