Heckman和Glynn等人在选择模型分析方面做了更早的工作。Baker和Laird将选择模型应用于结果服从不可忽略非响应的分类变量的回归分析[12],而罗宾斯等人[13]在半参数方法中使用了条件期望模型的选择视角。对于可忽略的无反应假设,Robins和Gill [14提出了一类非单调缺失数据模式下的通用选择模型。在重复测量的选择模型的情况下,结论对辍学机制假设的敏感性已由Kenward [15]。Scharfstein等人提出了一种缺失数据机制的半参数方法。16],以避免参数缺失数据规范在选择模型角度的影响。对于非单调模式,选择模型已经由Troxel等人扩展。[17]。除了Troxel的工作外,在选择模型框架内,也提出了非单调模式的模型,例如,参见Jansen和Molenberghs [18]。在分类测量和其他类型测量的背景下,在许多例子中,参见Fitzmaurice等人。19]和诺德海姆[20.],也建立了选择模型。此外,对于非高斯结果也提出了一些建议,参见Molenberghs和Verbeke [21]。选择模型的更多细节可以在Robins等人的文章中找到。[22,罗特尼茨基和罗宾斯。[23],Robins等。[24[1998] Verbeke and Molenberghs [9,13]莫伦伯格和肯沃德[3.]。
本文讨论了存在不可忽略的遗漏时纵向数据的分析问题。我们通过考虑与连续结果一起发生的丢失数据的问题来说明这种分析。我们关注的是狄格尔和肯沃德的[5模型作为评估选择对建模假设的敏感性的工具。我们将注意力限制在一个重复高斯测量的模型上,在这个模型中,dropout可能取决于缺失的结果,即MNAR。在模型中构造了一个单调缺失模式。与Diggle和Kenward类似,指定了一个选择模型,该模型使用逻辑回归模型来描述缺失数据指标对纵向响应的依赖关系。在当前的应用中,我们修改了分析软件,以适应两个以上处理臂的情况,作为计算扩展。我们在这里的主要目的是研究退出过程可能对考虑的数据施加的影响。为了研究我们的目标,我们进行了一个应用程序来分析不完整的纵向数据与dropout。我们概述了基于测量过程的线性混合模型和辍学过程的逻辑回归的选择模型的拟合。采用标准统计软件(SAS version 9.2, IML宏)对模型进行拟合。这是通过使用一个多中心临床试验数据形式的实际例子来完成的。 The remainder of the article is organized as follows: the data setting and modeling framework are introduced in Section 2. In Section 3, a background for the selection model is provided, followed by descriptions of the selection model based on Diggle and Kenward model frameworks as well as detailed discussion of the linear mixed model and dropout model. In Section 4, we present an application including a description of the data set used in the analysis. The results of the estimation of the model are then described in Section Results. We conclude with a discussion of the results in Section Discussion and conclusion.
用Dropout对纵向数据建模
为了引入一些必要的符号,我们遵循Verbeke和Molen-berghs以及Molenberghs和Kenward基于Rubin(1976)和Little和Rubin[]的标准建模框架提供的术语。25]。假设对于每个独立的科目i = 1…,N在研究中,一系列的反应Yij是被设计成在一组固定的场合测量的吗J = 1,…,n.结果被分组成一个向量Y我= (Y)i1Y,…,在)”。通常需要拆分结果向量Y我化成两个子向量,Y我o和Y我米,分别表示观察到的成分和缺失的成分。另外,还可以定义一个指示器Rij,每个场合j如下:Rij= 1,如果Yij, Rij否则=0。缺失数据的指标(Rij)可以组合成一个与的平行结构的向量RiY我.生成向量的过程Y我和R我分别称为测量过程和缺失数据过程。我们现在要注意dropout设置,这是一种单调缺失模式的特殊情况,在这种情况下,在重复测量结果的序列中,任何对象出现的缺失值都不会在该对象上进行任何观察到的测量。或者,当dropout发生时,可以使用标量变量D我称为dropout指示器,而不是丢失数据指示器R我,定义为<我米gsrc="//www.cheescube.com/articles-images/statistics-and-mathematical-sciences-1-2-51-e001.gif" class="img-responsive" alt="">,表示退学发生的场合。接下来,我们考虑完整数据的密度(Y我,R我),表示为
(1)
在哪里X我和W我分别是测量和缺失数据机制的协变量矩阵,参数向量和ψ分别描述了测量和缺失过程。该分类法由Rubin [1]利特尔和鲁宾[25],是基于以下分解
(2)
其中第一个和第二个因素分别表示测量过程的边际密度和缺失数据过程的密度,条件取决于结果。Factorization(2)是选择建模的基础,因为第二个因素对应于个体对观察组和缺失组的自我选择。使用反向分解,可以考虑的另一种分类法称为模式混合模型。它们的形式如下
(3)
实际上,方程(3)可以被描述为不同总体的混合,其特征是观察到的缺失数据模式。这些模型最初由Little和Rubin提出[2]和Glynn等人。[10],而后来许多作者提供了进一步的关注,例如,参见Little [26,27]。如上所述,Rubin对缺失数据过程的分类基于方程(2)的第二个因素,因此在选择建模框架内
(4)
在式(4)中,假设测量过程的协变量被测量,但为了简单起见,将其抑制。式(4)中的形式可以讨论如下:当缺失过程与响应无关时,即
(5)
则该过程对应于完全随机缺失(MCAR)的情况。如果缺失过程仅独立于未观察到的响应Yim,而依赖于观察到的响应Yio,因此,假设形式为
(6)
那么该过程对应于随机缺失(MAR)的情况。最后,当缺失过程依赖于缺失数据Yim时,该过程对应于非随机缺失(MNAR)的情况。正如Rubin, Little和Rubin所指出的,当MAR机制成立时,参数θ和ψ是函数独立的。在实践中,兴趣的可能性取决于因素<我米galt="方程gydF4y2Ba" src="//www.cheescube.com/articles-images/statistics-and-mathematical-sciences-1-2-51-e008.gif" class="img-responsive">因此,当在MAR假设下使用基于似然的分析时,缺失的价值机制有时被认为是“可忽略的”。相比之下,如果兴趣的可能性只取决于因素<我米galt="方程gydF4y2Ba" src="//www.cheescube.com/articles-images/statistics-and-mathematical-sciences-1-2-51-e009.gif" class="img-responsive">,则这被称为“不可忽略”的设置。因此,当可忽略性成立时,基于似然和贝叶斯的推断是有效的[9,27]。
不可忽略辍学的选择模型
在选择模型的框架中,假设MAR成立并不总是合理的,并且已经提出了广泛的MNAR数据建模方法。其中一个是Diggle和Kenward提出的模型[5]以获得连续的辍学结果。在本节中,我们首先描述Diggle和Kenward的连续纵向数据选择模型。然后详细讨论了线性混合模型和dropout模型。
Diggle和Kenward的连续纵向结果模型
Diggle和Kenward提出了一个纵向高斯数据的非随机dropout模型[5]。Their model assumes that the missingness mechanism is MNAR which combines the multivariate normal model for longitudinal Gaussian data with a logistic regression for the dropout process. From the notation presented in Section (2) recall that for subjectI, I = 1,…N一系列的反应Yij是被设计成在时间点测量的吗tij,J = 1,…n得到观察结果的向量Y我= (Yi1, ...Y我n我)的测量值。
请注意,虽然每个受试者计划进行n次测量,但向量Y我有尺寸n我<n因为缺少观察。在辍学的情况下,完成Y我只被部分观察到。如果我们让D我那就成为退学发生的场合吧D我> 1,和Y我可以划分为(D我−1)维度观测分量<我米galt="方程gydF4y2Ba" src="//www.cheescube.com/articles-images/statistics-and-mathematical-sciences-1-2-51-e010.gif" class="img-responsive">(n)我−D我+ 1)维缺失分量<我米galt="方程gydF4y2Ba" src="//www.cheescube.com/articles-images/statistics-and-mathematical-sciences-1-2-51-e011.gif" class="img-responsive">.如果没有退学,我们让D