数学科学部门,克莱姆森大学克莱姆森,SC 29634 - 1907,美国。
收到:22/08/2015接受:13/10/2015发表:23/10/2015
访问更多的相关文章研究和评论:统计和数学雷竞技苹果下载科学杂志》上
首先打击时间模型是一个建模一个随机过程的方法或技术避免了边界,也被称为一个阈值。过程本身可能无法察觉到的,使这一个困难的问题。回归技术,然而,可以用来模型数据与阈值比较,首先打击时间模型的创建一个类称为门限回归模型。生存数据,测量的时间事件发生之前,广泛应用于医疗和制造业数据建模。手头的数据分析和模型,一个常用的方法是比例风险模型,但这需要一个强大的比例风险假设,往往是缺乏实践。的比例风险模型,首先打击时间模型可以使用。首先打击时间不需要如此强烈的假设和模型可以扩展成为门限回归模型。阈值回归比例风险模型有许多优点,包括它的灵活性在其假设和利用率及其应用随机过程在测量经常明显生存。介绍了阈值回归建模的过程和比较的结果和效用,比例风险模型。这种方法提出了一些有趣的应用程序。
阈值回归;第一次撞击时间模型;精确解;马尔可夫分解。
首先打击时间模型是一个建模一个随机过程的方法或技术避免了边界,也被称为一个阈值。过程本身可能无法察觉到的,使这一个困难的问题。回归技术,然而,可以用来模型数据与阈值比较,首先打击时间模型的创建一个类称为门限回归模型。生存数据,测量的时间事件发生之前,广泛应用于医疗和制造业数据建模。手头的数据分析和模型,一个常用的方法是比例风险模型,但这需要一个强大的比例风险假设,往往是缺乏实践。的比例风险模型,首先打击时间模型可以使用。首先打击时间不需要如此强烈的假设和模型可以扩展成为门限回归模型。阈值回归比例风险模型有许多优点,包括它的灵活性在其假设和利用率及其应用随机过程在测量经常明显生存。介绍了阈值回归建模的过程和比较的结果和效用,比例风险模型。
第二节简要概述的生存数据和一些重要词汇相关的研究领域。第三节概述的基础比例风险模型,并描述了其优点和缺点。第四节描述了第一次打次模型及其应用纵向和其他类型的数据。第五节认为门限自回归模型的具体情况和不同的方法可以用于不同的数据。第六节提供的例子阈值回归和比例风险模型比较结果。最后,第七节提供了一个结论,一个简短的讨论结果。
生存数据,或者比较数据,措施的时间在某些事件之前,通常称为失败,发生。生存分析,包括各种方法用于生存模型和分析数据,在众多的领域是非常有用的,特别是在医学和工程数据建模。
失败可以是任何事件感兴趣的研究者,在许多情况下指的是生物死亡或机械故障。在医学应用中,失败是通常的死亡感兴趣的病人从疾病或损伤,诊断的时间或病人治愈(即的时候。,感兴趣的事件从一种疾病完全康复)。在工程,失败通常是指一块机械不再能够充分执行其功能。
在大多数研究中,失败不发生一个或多个主题。例如,病人可能保持健康状况良好或一台机器可能会继续在研究结束的正常运转。在这些情况下,主体的地位在审查时间为最后一次测量,通常研究完成时,尽管单个对象可以有个人审查时间。分开这些审查必须考虑观察那些满足失效标准,将反映在偏似然函数的过程中,稍后讨论。
可观察到的数据,可以测量和记录,是目前最方便的实现。然而,对于许多涉及人体受试者的研究测量可能会丢失或无法确定。不可见的或潜在的数据条件过于复杂的结果,微妙的或难以记录(1]。在这些情况下,必须使用其他可观察到的变量来获得尽可能多的相关信息关于失踪的测量。
比例风险模型通常用于预测在生存分析。这些模型需要一个适当的风险函数以及强大的比例风险的假设。这种假设状态,则反是用乘法相关风险函数(2]。风险函数,h (t),给出了瞬时的失败(3]:
在t时间问题,t是失败一次,f (t)是故障密度函数和s (t)是生存函数,即:,存活的概率至少直到时间t。
比例风险模型的风险函数是一个基线风险成正比,产生一个有用的属性。假设我们有主题与协变量值和。然后[3]:
因此,风险比t不依赖于任何时候(2]。比例风险的假设下,生存功能观察不同的协变量值不相交(3]。
由于强烈的比例风险的假设,然而,许多比例风险模型失败。非比例风险可能是由于不明原因相似的风险或不随时间变化的学科内(2]。使用比例风险也限制了模型的结果。最值得注意的是,生存曲线比例风险模型不能交叉,如果一组优于另一个,这一趋势将为研究的其余部分保持不变,根据模型。
第一次撞击模型解释了事件次使用一个随机过程达到边界B,也被称为一个阈值(3]。第一个打时间的数据
注意,{Y (t)}可以是一个或多维,可能有不同的属性如平稳性、独立增量或连续样本路径并不能保证达到阈值,也就是说,
这对谁规定审查占主体大于0。首中时时间不需要比例风险模型假设,给他们更多的自由比相应的比例风险模型的应用。
潜在的过程我们有两个工艺参数和基线水平。工艺参数,给出向量大纲均值漂移μ和方差因为简单,通常是将等于1。基线水平的过程中,只是Y的值(0)
使用的数据通常包含主题与独立健康的过程在哪里的最后一次记录是j。个别学科的边界集也可能有所不同,但对于本文的目的,我们将假设一个共同的阈值。每个n的主题,提供观测数据对
的纵向阅读在的水平在时间,伴随着整个故障指示器也就是1如果0,如果。达到设定的边界后,的过程,只是读如果,如果是第一次打次的主题4]。
在许多情况下,纵向数据不可用,所以对于所有j,唯一可用的信息是观察和故障指示器,如上所述。在更极端的情况下限制数据,唯一可用的信息,传达如果失败或主题是审查和当4]。
每个主题的研究有助于部分整体数据的可能性,取决于主体经历了失败或审查。如果主题失败=年代时,则由其贡献
如果审查以外的主体生存时间C,是由它的贡献
所以,失败的指标,我们有似然函数
生存中的多个观测数据为单个主题通常是分解成一系列更小的条目覆盖集的时间与初始和最终数据条目,创建一个可用于首中时的纵向序列时间模型(1]。当纵向数据,连续观察相同的可测量的变化,使用一些有用的属性出现简化预测生存的过程。序列的时间点观察来标示。这个序列结束时两个事件发生:要么失败或审查。
审查时间C将配合一个时间点的序列,我们可以创建一个失败的代码序列
和审查的代码序列
与
这些序列导致三种可能的代码配置在每个时间点。如果主题是生存和尚未审查时间,然后如果没时间或之前,然后如果这个话题没有失败的审查时间,这些序列与可观测的过程序列用于threshold-crossing变量给出的和额外的序列向量观测,表示为每个主题j。我们的假设要求这些值观察到审查一次,但不经过失败。
马尔可夫假设下,我们可以分配基线协变量值和时间增量找到的初始健康状态的间隔时间报价吧是最后一个观察的主题,也就是说,第一次观察到的或是1。与事件,我们有
由马尔可夫假设。通过建设、纵向记录被分解为一系列一步记录的初始条件条目的和作为最终间隔的情况而定。明确,这是写成
与除非随机初始条件(1]。
虽然许多类型的第一个打击时间模型存在,比其他人更常用的一些流程。最常见的一种是逆高斯分布的一维维纳过程首先击中。维纳过程参数μ、σ,始于一个初始值,Y (0) = 0。当μ,均值漂移率,是负的,年代,第一次打次逆高斯分布。当μ是负的,有一个逆高斯分布参数和σ[4]。
另一个常见的过程是二维维纳模型标记和第一击中。在这里,这个过程是潜在的,但伴随着一个标记的过程,影响{Y (t)}。联合,这两个过程构成了二维维纳扩散过程的初始值和多元分布正常
阈值设置为0,标记的变化过程是由(4]。
初始时间的过程观察到0,直到审查时间C,所以主题是生存在C和标志的水平记录或在一段时间年代和主题失败吗是记录。
首中时一类模型称为阈值回归模型结合协变量数据使用回归到原始的首中时模型结构参数的过程(2]。在阈值回归,对风险随时间的影响,所以比例风险的假设是没有必要的2]。阈值回归机构回归结构,利用相同的工艺参数与均值漂移参数和基线水平。在这里,协变量的值吗主题和g1和g2选择链接功能的数据。可以使用许多不同的链接功能,包括线性和多项式的组合半参数回归样条函数,处罚回归样条函数,随机效应模型和贝叶斯模型(3]。
的三个构建块阈值回归,然后,有:1)过程中,,这可能是一个维纳过程,γ过程或其他适用的过程;2)边界,这可能是一条直线或曲线;3)时间尺度,这可能是基于日历时间,运行时间和分析时间。
阈值回归使用对数似函数来确定主题的存活时间如下:
在哪里是主题的故障指示器j, tj是经过审查的存活时间如果失败,f和f是第一个打时间概率密度函数和累积分布函数,分别为(3]。
让是阈值的事件最终到达B。然后平均生存时间可以发现j
nonidentifiability的贝叶斯分析,这些参数可以导致noninformative先知先觉,它允许参数漂移极端,导致不稳定的估计,或overinformative先知先觉,不允许任何贝叶斯更新或学习2]。
这些问题,修复模型允许我们剩下的两个参数,使用回归。这里,阈值回归揭示了它的一个最大的优点:区分这两种类型的协变量的影响(2]。协变量阈值回归指定其作为研究之前产生了影响,也就是说,在y0,或退化的影响,也就是说,μ。一个共同的回归结构使用以下方程:
在哪里协变量向量和吗和相应的协变量的影响(2]。
使用情景应用程序代码从[5),我们将首先研究一个简单的数据集对骨髓瘤,然后一个更大的,类似的数据集对黑色素瘤和最后的数据集与机械通气相关肺炎在医院处理。
阈值回归的一个假设的例子包括49名患者被诊断为骨髓瘤,恶性浆细胞的积累。在这个简单的示例中,只有三个不陪的时间变量,测量时间直到死亡或审查,和故障指示器:在登记病人的年龄,性别的病人和治疗应用于病人5]。这些数据给出了高度受限,所以我们只给这些协变量的值的研究和故障或审查的时间。没有机会使用纵向数据或任何马尔可夫分解。
使用线性链接功能,程序发现的系数表达式
牛顿迭代法用于最大化对数似函数
检索上面的系数。非线性最大化过程使用t测试确定哪个系数是显著的,我们获得以下表1。
因此,我们获取必要的回归系数的估计,屈服
使用SAS中的lifetest过程,我们可以获得生存的土地。我们现在比较这些情节(图1)。与那些由我们的回归。
根据我们的回归,性别对初始健康状态y具有重要意义0和健康的平均漂移过程μ。使用SAS中的lifetest过程,我们看到从kaplan meier生存估计,男性比女性有更高的初始健康状态,而且就在两条曲线的平均存活时间跨越两次。这意味着近3.3年的研究中,男性失去了健康的优势,但很快就恢复了。男性继续out-survive女性在剩余的研究中,两组有类似的漂移,明显的近两条曲线陡度。
在我们的回归模型,然而,女性开始在初始健康非常轻微的优势,但它正迅速失去当女性曲线急剧下降。两曲线方法阈值稳定,lifetest过程,平均生存时间预测的回归。
在我们下一组曲线(图2),由治疗,我们专注于一个变量y都具有重要意义0和μ。使用lifetest过程,我们发现治疗2在初始健康状态有相当大的缺点。我们也注意到,这三个曲线多次相互交叉,但最近的研究开始后3.5年左右。
这种行为也在我们的回归模型,发现其中三条曲线反向顺序:治疗0从最强最弱的所有在第三年,尽管治疗2相反。在我们的模型中,治疗0和1有大约相同的曲线到第三年年底。在所有情况下,治疗的差异并不明显,直到至少三年的学习,达到和阈值对治疗0和1。
我们的第二个数据集,从一个真正的黑色素瘤患者的研究中,观察到相同的方式与前面的数据,也就是说,只有一组观测每个主题。在这里,直到死亡或审查协变量测量还有几:病人的性,大量的炎性细胞浸润(ICI),一个类上皮细胞类型指标(ecells),一个溃疡指标、厚度的肿瘤(毫米)和病人的年龄。
再次,线性链接功能被用来解的系数
同样的方法用于最大化似然函数相同,系数是发现和提出了以下表2,,:
这些系数产生的功能
我们回归告诉我们,只有y溃疡具有重要意义0初始状态的健康病人的过程。的区别是明显的曲线(图3在SAS) lifetest提供的过程,但也似乎是一个相当大的差异两条曲线的漂移,这绝对是不正确的在我们的回归。kaplan meier估计,两条曲线不交叉,而在我们的回归模型,两条曲线是完全相同的。这适用于无意义的漂移在我们的模型中,但不占初始健康的差异。然而,回归模型,准确预测溃烂患者平均存活时间,表明两组达到阈值。
回归模型表明病人的年龄只μ都具有重要意义。年龄变量数据分割为小群体,降低曲线的一些信息。组与小样本大小,如那些在80年和20下,曲线,反应强烈少量的失败,所以这些曲线常常会误导kaplan meier估计。会计,我们看到初始健康的差异主要是由于这些较小的团体,是一个相当简单的年龄和漂移之间的相关性:年长的病人,生存曲线越陡峭。早些时候同样明显的是,在试验中,在1000天之前,大多数年龄群体的生存曲线相当紧张,有交叉和重叠,但经过1000天之际,曲线更加分开,表明随着时间的推移,时代扮演着更重要的角色恢复和失败。还应该指出,约3000天,40 - 80岁也有类似的曲线,但回到先前的模式为研究进展。
我们回归不展示任何初始健康状态的差异,但主要是一致的模式中发现kaplan meier估计。再次,由于小样本大小,平均生存时间不是我们的数据推测,但是所有的曲线(图4)保持远高于阈值,与数据一致。
在最近的一项研究中通风病人送到重症监护室(ICU)在一家当地的医院,246年与机械通气相关肺炎患者观察到测量时间发生。没有使用纵向数据,但每个主题与时间变量记录一个观察观察的时间长度在通风机和一个指示符变量声明是否与机械通气相关肺炎病人感染。注意的其他协变量包括:chlorohexidine指示器(chx),住院的长度在天(hstay),在ICU的长度在天(icustay)插管网站(intsite),意外拔管指示器(uext)、再插管指标(reint),病人的年龄、病人的性别,种族的病人,病人的入院诊断(adx)和伴随疾病慢性阻塞性肺病(COPD)指标。注意失败在这个例子不是死亡由于疾病,但是简单的与机械通气相关肺炎被诊断出,证明“失败”可以有多种含义首先打击时间模型。
再次,线性链接功能被用来解出的回归系数
这些链接功能产生了以下的结果表3α= . 05:
所以我们有功能
我们将再次比较生存曲线(图5与kaplan meier)为我们的回归估计在SAS lifetest生成的过程。
回归的输出状态,病人在ICU的长度只有y初始健康状态具有重要意义0。这个变量太多样的精确描绘的所有数据,但与这些有限的样本大小,我们可以看到,kaplan meier估计都有类似的斜坡前两周的研究。此外,我们可以看到初始健康状态确实不同,与那些住在加护病房大概有两周的时间超过三天,停留三个星期的那些呆一周约九天和那些呆不到一个星期超过十天。Kaplan - Meier估计,只有集团达到阈值是那些住在加护病房大约一个星期。
在我们的回归模型中,三条曲线都有几乎相同的漂移,在陡峭的曲线非常相似。的初始健康差异明显的时间每个曲线先下降100%的存活率。正如kaplan meier估计,一个星期,三个星期的曲线是几乎相同的,尽管这对病人在ICU大概有两周的时间最高,平均存活时间约13.5天。值得注意的是病人在ICU的前三个星期仍然可以有失败的时间21天的研究,是失败的在这种情况下并不意味着死亡,只是疾病的收缩。
病人的入院诊断可能是最丰富的变量在这项研究中,因为它占了大部分在ICU病人到达后会发生什么。入院诊断是由我们的回归是重要为y0和μ。kaplan meier lifetest过程提供的估计显示明显差异在初始健康状态的患者8组,但它应该再次注意,小群体大小对于一些诊断,特别是6、7和8(分别为术后败血症和其他),让明显或完全缺乏一些曲线。不过,样本量大,即使患者承认心血管诊断与机械通气相关肺炎被诊断出患有很快,经常。心血管组白天到达阈值11。
回归模型表明,三种最常见的诊断,神经学、肺和心血管closebut截然不同的曲线(图6),所有这些都在18天达到阈值。患者最初诊断为神经问题有优势超过其他两个初始健康,但有一个陡峭的曲线总体上,显示的差异意味着漂移的过程。漂移对所有组的差异随着时间的增加,曲线的剧烈的增长表明传播后第八天。
最后,我们的回归标志着为μ再插管病人作为一个重要的变量。kaplan meier估计,reintubated患者在初始健康状态有一些优势,但曲线下降很快,达到阈值18天。病人来说,变量是不适用的,这意味着没有意外拔管扭转,下降最慢,表明完全避免再插管和意外拔管将导致最强的生存曲线(图7)。
回归模型似乎显示三种不同初始健康状态,但显著差异在于漂移的过程。正如预期的那样,一旦reintubated病人的曲线开始下降,下降迅速,几乎直接阈值。小号的这组可能导致这种戏剧性的下降,这是几乎完全由non-reintubated反映病人的曲线大约三天前。大群,为谁再插管并不是一个问题,有一个曲线平缓坡,超车non-reintubated病人到了8和reintubated病人白天11天,证明其平均漂移明显不同。
虽然比例风险模型都有它的用途,它过于依赖比例风险的假设,可以快速应用程序失败。在实施阈值回归,专业第一次打次模型的情况下,这种假设是避免,创造更多的实践机会和函数。门槛回归模型也有助于强调特定的组件,导致健康状况的变化通过识别重要的主题和无关紧要的协变量应用于回归(3]。