部门统计,大学浦那(印度浦那411007
收到:29/08/2015接受:30/12/2015发表:06/01/2016
访问更多的相关文章研究和评论:统计和数学雷竞技苹果下载科学杂志》上
脆弱模型被用在生存分析模型难以察觉的异质性。这种异质性的研究包含随机的词叫做弱点假定把危害所有学科的共同弱点。我们研究复合负二项分布是脆弱和两个不同的基准即帕累托分布和线性故障率分布。模拟研究了比较真实值估计的参数值。我们开发的贝叶斯估计过程使用马尔可夫链蒙特卡罗(密度)技术提出了模型的参数估计。我们试着去适应现实生活提出模型二元McGrilchrist生存数据集和Aisbett肾脏感染有关。同时,我们提出一个比较研究相同的数据通过使用模型选择准则,并提出一个更好的模型。
贝叶斯估计,复合负二项弱点,马尔可夫链蒙特卡罗(密度),共同的弱点。
弱点是一个随机组件设计占异质性造成的未被注意的方面的个人因素,否则被忽视的其他预测模型。Vaupel et al。1]建议脆弱模型来解释由于协变量未被注意的变化。几个像伽马分布,逆高斯,积极稳定分布、方差函数,威布尔、复合泊松作为脆弱模型的异质性群体。
一类随机效应模型被证明是有用的在生存分析相关的个体是一个类的脆弱模型是基于个人的修改风险函数通过引入乘法影响基线风险函数。因此脆弱模型是时间事件数据的随机效应模型是一个扩展的Cox比例风险模型。Vaupel et al。1],李曼荣Keyfitz和[2]表明,忽视个体异质性导致错误结论。
绝对让T是一个生存时间和连续分布。一个非负随机变量随机变量Z被称为“脆弱”如果条件风险函数给出了Z Z =
(1.1)
在h0(t)称为基线风险函数。然后的条件生存函数,
(1.2)
在哪里是累积的基线风险。
和边际生存函数
(1.3)
L在哪里Z(.)是脆弱分布的拉普拉斯变换。
在这篇文章中,我们考虑复合负二项分布的共享脆弱模型作为一个脆弱和帕累托分布线性故障率分布作为基线分布。本文的其余部分组织如下。在第2部分中,我们给出一般脆弱共享模型的属性。在第三节中,我们介绍了共享的复合负二项模型脆弱。基线分布在第四节给出。在第5部分中,我们提出两种不同的复合负二项模型脆弱。在第6节,我们将讨论使用贝叶斯方法估计的参数提出了模型。我们将讨论不同的模型选择准则通过贝叶斯方法在第七节。8节我们提出仿真研究。我们现在分析肾脏感染从这两个数据集和显示一个更好的模型提出了模型9节。 Finally in Section 10, we discuss the conclusion of the study.
分享脆弱模型解释群体内部的相关性(家庭、垃圾或诊所)或复发事件面临着同一个人。即。,the different events within each community share a common frailty, shared by each individual within the community and each unit belongs to precisely one category. The shared gamma frailty model was suggested by Clayton [3)之间的相关性分析集群生存在遗传流行病学。
二元生存数据时出现的每个主题替补经历两个事件。例如,失败的成对的器官如肾脏、眼睛、耳朵或其他器官配对的个体,在工业应用中,双发电机的故障时间在电厂或失败时报一架双引擎飞机的两个引擎,一个给定的疾病的复发。同卵和异卵双胞胎的出生日期和常见的产前环境的插图是二元生存数据共享的弱点(4]。
为了建立这样的数据的共享脆弱模型假定生存时间是条件独立的,对于一个给定的共同弱点。即。,there is an association between survival times only due to frailty.
让二元随机变量我的生存时间th(i = 1、2)组件的jth个人(j = 1, 2 . . n)。考虑到未被注意的Zj的风险函数由,
i = 1、2 (2.1)
在zj代表脆弱充当乘法效应在个人层面上,在时间t的基线风险吗ij> 0,是向量的回归系数k组件和是向量的协变量观察k组件。
整合风险函数我们得到的条件累积风险函数jth个人的生存时间t i组件ij> 0为给定的弱点
(2.2)
在哪里和在时间t是累积的基线风险函数吗ij> 0。j的个人条件生存函数的第i个组件生存时间tij> 0为给定的弱点是,
当和j = 1 2 . .n一个re independent, the bivariate conditional survival function of对于给定的弱点产品生存条件的函数吗和对于给定的弱点因此,我们有
在哪里和累积的基线风险函数的第一和第二部分和分别。
集成的双变量条件生存函数在脆弱变量Zj概率函数,fz(Zj)j个体为了获得无条件的二元函数在时间T生存ij> 0。
在哪里(。)LZ j是脆弱的拉普拉斯变换的变量zj个人对j。
复合分布是一个随机的模型和Z = X1+ X2+…+ XN术语的数量,N是不确定的。我们假设变量ξ是独立同分布,每个X我独立于联合国的随机和Z可以解释相关的测量值的总和与某些事件发生在一个固定的一段时间。例如,复合分布的随机变量生成的总索赔保险的保险单或一组固定的政策时期。在这种背景下,N是索赔的数量产生的投资组合保险策略和X1是第一个声明和X的数量2第二是所主张的金额等等。据说随机和Z是一个复合泊松分布如果N遵循泊松分布。
复合泊松变量Z被定义为
其中N是泊松分布和ρ,意味着什么是独立的伽马分布形状和尺度参数v parameterξ。
Z的分布可以分割成两个部分,一个是离散部分对应于零的概率敏感性和第二部分是由于连续的实线。
离散部分给出
P (Z = 0) = exp(−ρ)
这是减少ρ减少。
连续的分布是由调节Z和X伽马分布。
Aalen [5,6]介绍了复合泊松分布作为生存的混合分布模型。在很多情况下风险利率初或强度提高,达到一个最大值,然后下降,这就是为什么强度有一个单峰形状与有限的模式。
例如,癌症患者的死亡率,离婚率。
人口强度开始下降的原因是,高风险个体已经死亡或离婚上面的例子。
也经常看到,总积分在强度或故障率是有限的。它发生在由于分布是有缺陷的。这意味着一些人零易感性;他们将永远生存。
上面的例子有些癌症患者生存,有些人从未结婚,有些婚姻是不容易溶解。在这种类型的数据混合分布的复合泊松分布起着重要的作用。
尽管复合泊松分布有许多吸引人的属性,在non-susceptible或零敏感性类型的数据方便脆弱分布。一些其他的例子零敏感性类型的数据如果N > 0,那么我们可以解释Z总异质性由于之前第一次成功或失败一般仅仅可以作为成功,婚姻数据,Z可能代表异质性由于困难在寻找结婚的伴侣个人满足第一个合适的合作伙伴。生育,Z可能异质性由于miss-carriages观察或无法怀孕的夫妇的孩子在他们的第一个孩子或第二个孩子。一些母亲想接生,直到她提供一个男婴或两个男婴。政客们继续争夺选举直到他们赢得一次或两次等等。个人去改变工作,直到他/她得到一份合适的工作。在这种情况下负二项分布、几何分布变量N的分布是一个合适的选择。
所以,我们决定考虑复合负二项分布的脆弱distribute-ion模型零敏型数据在我们的研究中。
当成功的数量等于1,复合负二项分布降低了化合物的几何。有一个复合负二项分布和泊松分布之间的关系。如果Z1和Z2分别是复合泊松和复合负二项分布与Z1= X1+ X2+…+ XN1和Z2= X1+ X2+…+ XN2其中N1是泊松随机变量与强度λ和N2和负二项随机变量参数,成功和概率
成功的P那么Z1和Z2是恒等分布的日志如果λ=−r p。
被定义为复合负二项分布
其中N是负二项参数r和p变量;r和p分别表示,成功的数量和成功的概率,而X1,X2X、…N是独立的伽玛分布和ξν尺度参数和形状参数。
Z的分布由两部分组成;一个离散部分对应于零的概率敏感性,和持续积极的实线部分。
离散是一部分,
连续的分布可以发现通过调节N和使用X射线分布这一事实。它可以写成
(3.1)
是复合负二项分布的密度函数。
Z的期望和方差
和
Z的拉普拉斯变换给出了,
为了解决non-identifiability问题,我们把E (z) = 1导致。因此,我们有以下形式的拉普拉斯变换。
无条件的二元生存函数在时间t j的个人1 j> 0,t2 j> 0代替上述拉普拉斯变换在方程(2.5),
在哪里和是一生中随机变量的累积基线风险函数T1 j和T2 j分别。
在本文中,我们考虑两个基线分布即帕累托和线性失败率收益率两个复合负二项分布脆弱模型。
帕累托分布是一个倾斜的重尾分布,有时被用来收入的分布模型。这个分布是不限于描述财富或收入,但对很多情况下,找到一个平衡分布的“大”“小”。
第一个基线分布是帕累托分布(7]。连续随机变量T据说遵循帕累托分布的尺度参数和形状参数α如果生存函数,
(4.10
和风险函数和累积风险函数
(4.2)
(4.3)
观察到h0与t (t)减少;λ> 0,α> 0。因此这个分布属于减少失败率类。
指数两个最常用的分布和瑞利分析寿命数据。这些分布有一些可取的属性和不错的物理解释。不幸的是,指数分布只有不断的失败率和瑞利分布增加失败率。线性故障率分布概括这两个发行版。我们认为这是第二个基线分布。
线性的故障率分布的连续随机变量T参数α> 0和λ> 0,将用LFRD(αλ)有以下生存函数
(4.4)
它很容易观察到,指数分布(ED(α))和瑞利分布(RD(λ))可以获得LFRD (a, b)将分别λ= 0和α= 0。此外,LFRD的概率密度函数(PDF)(αλ)可以减少或单峰但故障率函数是常数或增加。看到例如贝恩[8森),和巴塔查里亚9林,et al。10),Ghitany和科孜11)和参考引用。
风险函数和线性故障率分布的累积风险函数分别如下所述:
(4.5)
(4.6)
这里我们提出两种复合负二项脆弱模型表示模型I和II将分别基线即帕累托分布的累积风险函数和线性故障率分布无条件生存二维随机变量的函数在方程(4.3)和(4.6)。
(5.1)
(5.2)
这里开始,方程(5.1)和(5.2)作为模型I和II对应复合负二项弱点分别与基线帕累托和线性故障率分布模型。
二元寿命分布,我们使用二元审查方案由Hanagal和Dabade [12]。
假设有n个独立双组件正在研究和jth对组件的寿命即有n个人与一对组件寿命j = 1,2,…, n。生活时间乘以与jth个人是由,
其中c1 j和c2 j被观察到的审查时间jth个人(j = 1,2,…, n)分别与两个组件。我们假设寿命分布和独立审查时间。
现在的可能性大小为n的样本是由,
(6.1)
θ,β,σ2基线向量的参数分布,回归系数向量和弱点分别参数。让数n1n2n3和n4和个人的数量的第一和第二个组件故障时间躺在范围;和分别和
(6.2)
在哪里
因此,我们得到了两个可能性功能复合负二项弱点提出的两个模型即模型,模型二世用相应的风险函数和累计风险函数的似然函数方程(6.1)在方程(5.1)和(5.2)。
似然函数得到的
我和模型
在哪里
(6.3)
模型二世
在哪里
(6.4)
每个提议的模型包括11个参数,计算极大似然估计(ml)涉及解决一百一十一维优化问题对这些模型。最大似然的方法无法估计几个参数由于迭代过程的收敛问题,所以我们使用贝叶斯方法。传统的最大似然估计生存分析中常用的方法,但它可以与脆弱模型遇到困难。此外,标准的基于最大似然推理方法可能不适合小样本大小或有重型审查的情况下13]。因此,在我们的问题一个贝叶斯方法,不受这些困难,是一个自然的,尽管它相对计算密集型。
一些作者已经讨论了贝叶斯方法估计参数的脆弱模型。有些是易卜拉欣et al。14]和桑托斯Achcar [15]。桑托斯和Achcar15)被认为是与威布尔参数模型和广义伽马分布像脆弱基线和伽马分布和对数正态分布分布。易卜拉欣et al。14)和引用其中认为威布尔模型和分段指数模型与伽马脆弱。因此我们提出了贝叶斯推理方法在这项研究估计模型的参数,这是一种普遍使用的方法,因为贝叶斯分析的计算变得可行的计算技术的进步。
应用马尔可夫链蒙特卡罗(密度)方法,我们假设,协变量条件观察和对整个组参数,观察是独立和先验分布参数是相互独立的。我们使用了pmmh算法在吉布斯采样器技术是最基本的获得方法用于贝叶斯推理。收敛的马尔可夫链的平稳分布是观察跟踪情节,从过去的耦合情节,Gelman-Rubin收敛统计,Geweke测试。跟踪情节是用来检查的行为链和从过去的耦合情节可以用来决定老化期。Gelman-Rubin收敛统计值约等于一个样本可以被认为是来自于平稳分布。Geweke测试检查基于马尔可夫链的收敛的子部分链结束时,融合时期的开始。
各态历经的大型标准化的区别开始和结束时的平均收敛周期表明非收敛。样本自相关图可以用来决定自相关滞后。
在贝叶斯范例模型的参数视为随机变量分布称为先验分布。它使我们能够结合先验信息和数据参数的更新信息。因此,后验密度参数的分布参数的更新通过结合其先验分布和似然函数。我们假设条件,对整个组解释变量和参数,观察是独立和先验分布参数是相互独立而获得应用的方法。
让似然函数和p(θ)的先验密度参数的后验密度函数参数π(θ| y)是由,
(6.5)
在我们的例子中给出的联合后验密度函数的一个参数失败
作为
(6.6)
在g我(.)i = 1、2、…,5denotes the prior density function with known hyper parameters of corresponding argument for baseline parameters and frailty variance; p我(β我)的先验密度函数回归系数β我因为我= 1,2,…,k。。和似然函数L(。)是由方程(6.1)。
算法由先后获得样本的每个参数的条件分配给所有其他模型的参数。这些分布称为完整的条件分布。因为完整的条件分布不容易集成因此完全考虑到它们获得的条件分布比例的联合分布模型的参数。获得的样品然后从这些充分条件分布。
贝叶斯模型比较通常是由计算后验概率模型。为了比较提出的模型,我们使用akaike信息准则(AIC),贝叶斯信息准则(BIC),异常信息准则(DIC)和贝叶斯因子。这些都是最常见的贝叶斯模型的评估方法。
Akaike [16]表明,给定一个类竞争模型的数据集,一个最小化的选择模型
(7.1)
p代表模型的参数的数量。代表一个估计的偏差评估后的意思是,异常的,D(θ)=−2日志L(θ)是一个向量模型的未知参数和L(θ)是模型的似然函数。
贝叶斯信息准则(BIC)是由施瓦兹(17]。柴田[18)和卡兹(19)表明,AIC倾向于高估所需的参数数量,甚至渐近。施瓦兹的标准表明,模型的后验概率最高的是最小化
(7.2)
其中n是观测的数量,或等价,样本的大小。
DIC, AIC的概括,介绍了斯皮格尔霍尔特的et al。20.)被定义为;
(7.3)
在哪里之间的区别是后的均值偏差和偏差后的均值参数感兴趣的,也就是说,和
模型与AIC值较小,BIC和DIC是首选。
Kadane和拉扎尔21从贝叶斯和频繁的角度)评估模型选择。模型的贝叶斯因子BJK MJ对可或给定的数据是
在哪里
θk是参数向量模型下可然后呢之前的密度和s参数θ的支持吗k。阿布(22),之后杰弗里斯(23),提出了经验法则的解释贝叶斯因子对数的两倍。两个模型的实质利益,乔丹的日志,可两次贝叶斯因子约等于在BIC近似的区别。
我们需要获得计算贝叶斯因素。通过考虑卡斯和阿布的方法之一24),我们获得以下密度估计的我K这是由,
(7.5)
调和平均数的似然值。这里N代表后样本大小和{θ(我)我= 1,2,…,N} is the sample from the prior distribution.
模拟研究了贝叶斯估计过程的性能进行评估。仿真目的我们只考虑一个协变量X1我们假设它遵循正态分布。脆弱变量Z是认为复合负二项分布。生活时间(T)1 jT2 j)j个人给定脆弱Z是条件独立的jz =j。我们认为Tij(i = 1,2; j = 1, 2,…, n)是一个基线分布,即帕累托(我)或线性失败率(ⅱ型)分别分布。贝叶斯方法是费时,我们只生成20、40和60双寿命使用逆变换技术。这里我们有生成不同的随机样本大小n = 20, 40和60 T一生1 j和T2 j。但我们给程序示例代只有一个样本大小,说,n = 20。样本生成使用下列程序:
1。生成一个随机样本的大小20复合负二项分布与形状和尺度参数ν共享弱点(zjj)th(j = 1,2,…, 20)。
从复合负二项分布,生成随机观察我们首先生成一个随机观察N = N从负二项分布参数
r = 1, p = 0.2。
然后我们考虑以下两种情况:
(我)如果N = 0;把脆弱Z = 0。
(2)如果N > 0;生成γ变量X说1,X2X、…Nξ= 0.2的形状参数和尺度参数弱点是作为Z = X1+ X2+…+ XN。
2。生成20 X1协变量值的正态分布。
3所示。计算的回归系数β= 0.5。
4所示。生成20条生命(T1 jT2 j鉴于脆弱(z)j)使用以下发电机,
我和ⅱ型,分别
,(8.1)
(8.2)
在哪里和和rij我= 1,2是随机样本从U (0, 1)。
5。生成审查* (c1 j和c2 j从指数分布)。
6。观察第i个存活时间tij = min (cij tij)和j的审查指标δij个人(i = 1; 2和j = 1, 2,…, 20),在那里
因此我们有数据由20对生存时间(T1 j;t2 jδij)和审查指标。
我们运行两个平行链模型在不同的起点在吉布斯采样器中使用pmmh算法基于正常的过渡内核。
我们遍历链的95000倍。在我们的研究中我们使用之前欠的弱点参数σ2和回归系数βI。因为我们之前没有任何信息基线参数,α1,λ1,α2和λ2先验分布假定为平面。前一种广泛使用的弱点参数σ2伽马分布的均值,方差大,G(φφ)说一个小的选择和回归系数I = 1, 2,…之前,k,我们使用正常平均值为零和大方差ε2。相似类型的先验分布用于易卜拉欣et al。14),Sahu et al。25]和桑托斯Achcar [15]。我们设置hyper-parametersφ= 0.0001,ε2= 1000。我们考虑基线参数的无信息先验分布为γ(0.0001)。
链的结果是类似我们现在这里只分析一个链链(即1)生成的模型。也由于缺乏空间我们不提供图表。模拟的参数的自相关值滞后k,所以每个k迭代选为样本后验分布。后与可信区间均值和标准误差在不同的样本大小表1和2对我来说,分别为ⅱ型。从这些表,它可以观察到,估计的参数值接近真实值的参数和标准错误减少随着样本容量的增加。
研究了贝叶斯估计过程我们使用肾脏感染数据McGilchrist Aisbett [4]。数据是关于感染的复发时间点的插入导管的38肾病患者使用便携式透析设备。对于每一个病人,第一和第二次复发感染(天)的时间插入导管,直到必须是由于感染记录删除。导管可能不得不被删除的原因除了肾脏感染和这方面的审查。所以一个病人的生存时间可能是感染第一或第二时间或审查时间。发生后或审查的第一个感染足够的时间间隔(10周)被允许感染治愈之前第二次插入导管。所以第一和第二次复发被独立除了常见的弱点组件。三个风险变量的数据由年龄、性别和疾病类型GN,一个和PKD GN的地方,一个和PKD是短形式的glomerulo neptiritis,急性neptiritis和polycyatic肾病。
让T1和T2是代表第一次和第二次复发感染。协变量5年龄、性别和是否存在疾病类型GN,和PKD是用X1,X2,X3,X4,X5。分析肾脏感染数据成功被定义为获得第一次感染所以我们定义r = 1。
首先我们检查拟合优度的T1和T2。如果T的边际分布1和T2两个提议分布符合那么T的二维分布1和T2可能适合。我们使用Kolmogorov-Smirnov拟合优度检验。因此从钴的假定值测试我们可以说没有统计证据拒绝从提出模型假设数据是在单变量的情况下,我们假设的模型也适合双变量的情况。表3给出了柯尔莫哥洛夫-斯米尔诺夫检验该模型的假定值。图1显示了参数和非参数的阴谋。
分析肾脏数据集,各种模型应用了不同的研究人员。
有些是,McGilchrist Aisbett [4]McGilchrist [26),Sahu et al。25],Boneg [27Yu), (28]和桑托斯Achcar [15]。McGilchrist和Aisbett认为semi-parametric Cox比例风险模型与对数正态分布脆弱分布和应用牛顿迭代过程来估计模型的参数。McGilchrist [26和玉28)被认为是McGilchrist相同的模型和Aisbett但McGilchrist估计模型的参数用BLUP毫升和REML方法和Yu提出修改EM算法和惩罚部分可能性的方法。Sahu等人认为四参数模型前两个分段指数模型和恒定的基线风险说λK在每个间隔为λK伽马之前我和ⅱ型正常之前。模型都有弱点和伽马分布。其他两个模型是乘法伽马脆弱Model-III和添加剂脆弱Model-IV与基线威布尔分布。桑托斯和Achcar)使用密度方法与威布尔参数回归模型的参数估计和广义伽马分布像脆弱分布基线和伽马和对数正态分布。Boneg认为Cox比例风险模型以及参数脆弱模型。在参数脆弱模型,他认为威布尔分布作为基线和对数正态分布,威布尔脆弱分布。他应用MHL和RMHL方法来估计模型的参数。
我们使用两套运行两个平行链模型的先验分布不同起点使用pmmh算法和吉布斯采样器基于正常的过渡内核。类似的模拟,在这里我们也承担相同的先验分布。我们遍历链的95000倍。我们现在这里只有一个链的分析G (a1;一个2)作为基线参数之前,对提出的模型。由于缺乏空间我们提供跟踪情节,从过去的情节和耦合参数模型的样本自相关图我只所示图2- - - - - -4。Gelman-Rubin收敛统计值几乎是等于1和Geweke测试统计值非常小,相应的假定值足够大的连锁店达到平稳分布。模拟参数的自相关值滞后k,所以每个k迭代选为样本。后验均值和标准误差为95%可信区间为基线参数,脆弱参数和回归系数提出了表4。AIC, BIC DIC模型给出的值表5。提出了模型的贝叶斯因子计算。
从表4这两个模型,我们可以观察到,零值不是一个可信的可信区间值回归系数X2所以X2这是性变量似乎是重要的。负值的β2表明,女性患者有轻微降低感染的风险。剩下的所有共X4比如年龄,X5即疾病类型PKD X3即疾病GN型和协变量X4即疾病类型一个微不足道的模型。
σ的估计2从两个模型表明,有一个强有力的证据的人口高度异质性的病人。有些病人应该很容易感染相比其他有相同的协变量的值。这并不奇怪,因为在数据集有一个男性患者感染时间8和16,也有男性患者感染时间152年和562年。
两个提议的模型之间的比较是通过使用AIC, BIC并在DIC值表5。可以看出这两个模型I和II AIC, BIC除了DIC值附近大约相同。另一种方式去决定最好的模型该模型之间我和模型II,我们使用贝叶斯因子定义为,
我在哪里我是定义为在方程(7.5)
使用方程(9.1)我们计算贝叶斯因子M216.3162是我们建议的模型。
我们可以观察到贝叶斯因子模型II vs模型我是6.3162意味着,对我有积极的证据,所以ⅱ型是更好的比我。因此,模型二世是最好的模型提出的复合负二项弱点的模型。现在,我们能够说,我们提出一个新的共享复合负二项脆弱模型与线性故障率分布作为基线对肾脏感染数据的建模是最好的。仿真研究和分析肾脏感染数据我们使用R软件。
在目前的研究中我们将讨论结果提出的两个模型的复合负二项弱点即帕累托、线性故障率分布作为基线分布。我们的目标是找到适合的模型,提出了模型之间的最佳。最大似然估计,似然方程不收敛和最大似然法无法估计的参数我们使用贝叶斯方法。使用贝叶斯方法我们进行仿真研究和分析肾脏感染数据。脆弱的估计方差来自不同模型(我= 1.0009;ⅱ型= 1.0001)显示,有一个强有力的证据的高度异质性的病人的人口。两种模型的协变量性是重要的。回归系数的负值(β2)的协变量性表明,女性患者有轻微降低感染的风险。回归系数的负值(β5协变量),疾病类型PKD表明这种疾病的患者没有稍微降低感染的风险。AIC的基础上、BIC DIC和贝叶斯因子,共享复合负二项模型II,脆弱与线性故障率分布是肾脏感染的最佳模型。