贝叶斯分层功能数据分析对于健康的月经周期

卡尔文·L·威廉姆斯^*和特雷弗·帕特里奇

数学科学部门,克莱姆森大学克莱姆森,SC 29634 - 1907,美国

通讯作者:: 卡尔文·L·威廉姆斯
lemson大学数学科学系的克莱姆森,SC 29634 - 1907,美国
电子邮件: (电子邮件保护)

收到:04/09/2015接受:09/11/2015发表:25/11/2015

访问更多的相关文章研究和评论:统计和数学雷竞技苹果下载科学杂志》上

文摘

几乎在每一个研究领域,研究一个随机的分布曲线可以提供需要的信息。在体外受精领域特别感兴趣,给建模的温度曲线的女性在她们的月经周期。拟合曲线会导致分类周期是健康还是不健康,可以帮助识别最肥沃的天的周期。

关键字

分层模型、吉布斯抽样模拟,贝叶斯规范,月经周期。

介绍

几乎在每一个研究领域,研究一个随机的分布曲线可以提供需要的信息。在体外受精领域特别感兴趣,给建模的温度曲线的女性在她们的月经周期。拟合曲线会导致分类周期是健康还是不健康,可以帮助识别最肥沃的天的周期。健康的月经周期由三个阶段组成,卵泡期、排卵期和黄体期。在卵泡期,基础体温(休息时达到的最低温度,称为《本文的剩余部分)保持恒定的低高原。在排卵过程中,基础体温增加,直到达到高原。《然后持有常数在这个高原黄体期。在周期的结束,《滴回到低高原在月经前和一个循环的圆不断重复着1]。图1给几个例子的一个健康的月经周期的基础体温水平(2]。第二部分概述了一般层次模型,然后给出了参数化建模的基础体温曲线。第二节末完成贝叶斯规范并指定所需的hyperparameters先验分布。第三节简要描述了吉布斯抽样算法,然后它适用于模型。第四节给出了一个变点问题的简短描述和定义所需的停止规则为了识别模型中的两个切换点。第五节详细的仿真数据,然后运用吉布斯抽样算法,故意hyperparameters倾斜。模拟的结果讨论了第五节的末尾。最后,第六节提供了一个简短的讨论的模型和结论。

statistics-and-mathematical-sciences-bbt-levels-healthy

图1所示。的例子,该剧的健康水平周期(2]。

层次模型

首先,我们将定义必要条款描述模型。未知数X的一个先验分布的概率分布表达一种确定性的X数据之前考虑。同样,后验分布的概率分布是一个未知数X数量条件观测数据。hyperparameter是参数的先验分布,并不视为随机。例如,考虑一个来自一个随机变量X分布,Σ是已知的,我们可以使用一个μ分布模型。那么μ是一个参数,是一个先验分布,μ₀和Σ₀hyperparameters。

一般的模型

让指的是我的女人,jε{1,2,..... n_我}指周期j的女人我,指天在周期t j的女人我。这些指标将保留这些定义在剩余的纸。我们可以建立以下模型基础体温曲线(3]:

在ε_ij测量误差和η吗_ij是一个光滑函数的来处理周期相同的女人将相关,我们可以建立一个先验分布的分布函数的女人叫它G_我。然而,健康的女性月经周期将遵循类似的模式,所以我们可以建立一个收集的先验分布的分布不同的女人称之为p因此如果我们假定错误是正态分布,我们有以下模型3]:

基础表示

现在,我们有了自己的一般模型,有很多不同的表示形式,可以用于η_ij。一个常见的策略是考虑基础表示(3]:

在哪里预先确定的基础功能和吗是cycle-specific基础系数。自是预定的,我们的主要目标是模型θ_ij年代。我们使用的方法是给θ_ij年代层次正常模式3]:

其中N_k(μΣ)是μ多元正态分布的均值向量和协方差矩阵Σ。大量女性基础系数是由αi,α为全球平均系数,基础和ΩΩ₁内的精度矩阵和女人之间的差异。完整的模型,我们需要指定功能的基础并建立θ的组件_ij。在下一节我们将这样做,当我们考虑一个参数层次结构。

参数层次模型

正如我们在第1部分中讨论的,《生活水平的健康周期遵循两相的模式在《生活水平从低高原在排卵卵泡期很快上升到高原在黄体期。因此我们可以模型η_ij(t)如下(3]:

在哪里在θ_ij1和θ_ij2显示温度在卵泡期和增加分别在基础体温在排卵周期j的女人我。我们可以进一步定义卵泡期的最后一天,r_ij是排卵期间的天数,该剧上涨(图2)。因此,如果我们认为y_ij(t)为Y_ij一个向量(n)_ij《生活的价值观,我们以矩阵形式可以表示我们的层次模型3]:

statistics-and-mathematical-sciences-representation-parametric-model

图2:参数模型的图形化表示。

因此X_ijt (t)^th行(X)对应于t j的女人我天周期。所以我们预先确定基函数定义和我们cycle-specific基础系数。

贝叶斯规范

现在我们已经在(Ω)和(Ω之间₁)女人可变性,卵泡期的最后一天(k_ij),在排卵期间的天数(r_ij),全球平均(α),测量误差方差(σ₂)模型。我们将使用以下方程模型之间的内部和女人变化:

我们完成使用以下先验贝叶斯规范(3]:

在哪里伽马分布的形状参数和尺度参数逆b,是a和b之间的离散均匀分布,而mij后月经第一天。因此,我们预先确定hyperparametersα₀,Σ_α,c, d, a_hb_h,一个_h1,b_h2(h = 1, 2)。总结参数,hyperparameters,他们的描述,分布在附录中给出。

吉布斯抽样

我们的目标是找到我们的模型的参数给定一组的观察。自从发现联合分布是一个复杂的过程,我们需要使用一个不同的方法。一个常见的方法是使用蒙特卡罗马尔可夫链为一个迭代的过程。蒙特卡罗马尔可夫链的具体类型,我们将使用被称为吉布斯采样器。

定义

假设我们有随机变量X₁,X₂X、…_n。

1。初始化:有一些初始值。

2。迭代:1≤≤K,样本x_(我)^j从X的条件分布_j鉴于和1 j≤≤n

这个吉布斯抽样程序是一个马尔可夫链,平稳分布的联合分布的X₁,X₂X、…_n那么,对于大的k,样本接近X的联合分布₁,X₂X、…_n。阻塞。吉布斯采样器使用相同的步骤,除了一些随机变量的聚在一起,这样一块中的变量抽样从他们的联合分布在所有其他variabes条件。

吉布斯抽样算法

这是阻止吉布斯抽样算法后我们的模型我们已经给了一些参数初始值2]:

1。Cycle-specific系数:

2。专门针对女性的意思是:

3所示。全球的意思是:

4所示。Ω的组件(h = 1, 2):

5。的组件

6。误差方差:

7所示。卵泡期的最后一天:使用变点停止规则k_ij(见第4节)。

8。排卵周期:使用变点停止规则r_ij(见第4节)。

如果我们使用了吉布斯抽样步骤更新他们的条件分布的未知参数,之后大量的迭代,我们将采样联合分布的未知参数。

变点问题

现在我们需要考虑kij和rij因为这些特定点(称为切换点)在基础体温曲线,曲线的形状变化。寻找一个变点P是直观的过程。给定一组的观察我们会发现的概率p≤m给定的,我们希望这个概率高于一些高阈值问:因此我们有一个“停止规则”(4]:

在m当且仅当终止

从m = 1,第一次的概率大于问是我们变点P。

发现kij

首先,我们希望找到k_ij假设其他参数是已知的。让X_k是第一个矩阵X的m行_ij建立以上但k_ij= k。因此。让{π_k}是k的先验分布_ijπ(。)是θ的密度函数_ij和f()的密度函数数据yij, m。我们现在需要找k的后验分布_ij为了找到为我们停止规则。

让变点的可能性。然后实现贝叶斯定理,我们得到4]

因为L_k不是一个函数θ_ij我们可能会取代θ_ij用0。也不依赖于k, L_kk比例

θ的后验分布_ij是N₂(μ_k,V_k),

请注意,这是相同的后验分布发现θ_ij在第三节,但改变矩阵X_K。使用这个θ的后验分布_ij,我们发现

因为我们需要找到,我们首先发现.从应用贝叶斯定理,我们得到

因为L_K在k W成正比吗_K,那么我们就可以替代工作的L_K,导致

这些概率很容易计算的数据可用。当k≥m,

所以X_K不依赖于k(因此W_K= W_米)。因此,我们停止规则是在m当且仅当终止

一旦我们达到我们的停止规则(4),让k_ij= m。

发现r_ij

我们可以应用同样的方法找到r_ij通过使用一个转换检查数据“向后”,即首先考虑的最后一天,并通过循环在相反的顺序进行。所以我们的新数据被逆转

让是我们的变换矩阵。然后

因此,如果我们让Xr *对应于第一个m行上面的系统,

这种转变让我们使用相同的过程,我们发现k_ij。让{π_r}是r的先验分布(第二changepoint)。新后验分布θ*_ij是N₂(μ_r,V_r),

注意,因为从而使类似的后验分布在第三节θ_ij。使用这个后验分布*_ij我们发现

因此,我们停止规则是在m当且仅当终止

一旦我们达到我们的停止规则,r = n_ij- m(因为我们改变了我们的数据)。自r_ijk之间的天数_ij然后r, r_ij= r - k_ij

模拟

数据模拟

现在描述的方法,我们将介绍一个模拟为了说明方法。模拟数据由20名妇女,每10个周期,我们有200周期。每个周期的长度(30天5]。我们任意分配全球均值和协方差矩阵

每个女人生成特定的意思是根据第二节中讨论的模型,所以然后我们生成的kij和每个周期根据它们最后,我们生成周期根据特定系数显示和测量误差项在σ²= 0.01。现在我们所需的所有参数生成模型,根据我们生成《值

初始化

为了运行算法,我们需要指定hyperparameters(初始猜测)。为了解释错误,我们故意扰乱hyperparameters远离实际的参数建立的数据所以我们hyperparameters仿真部分

使用这些hyperparamters吉布斯抽样步骤中的变点probleam部分。但在我们可以实现吉布斯抽样算法之前,我们需要初始化使用hyperparameters未知数的先验分布,如所示:

我们还需要初始化αis先验分布的自吉布斯抽样的第一步是找到θ的后验分布_ijαi条件。所以我们会产生α_我从先验分布值

初始化的最后一步是设置k_ij和r_ij所有的固定值7值。

运行算法

现在,初始化完成后,我们可以运行算法。我们总共6000次迭代的算法迭代老化1000。确保参数收敛,我们执行traceplots数量的变量。图3和4显示traceplotsα₁₁和α₁₂分别。

statistics-and-mathematical-sciences-Trace-plot

图3:跟踪±11的阴谋。

图4:跟踪±12的阴谋。

表1和2总结评估的结果在我们的模型的参数。周期的特定参数(k_ij,r_ij,θi_{j - 1}和θi_j2)总结所有周期,而女性特定参数(α_i1和α_i2在所有女性)总结。表,证明了这些参数的分布估计。图5和6显示图表真实和估计分布的两个示例周期。

statistics-and-mathematical-sciences-woman-specific-parameters

表1:真正的周期和女人的后总结具体参数。

statistics-and-mathematical-sciences-estimated-cycle-woman

表2:后总结估计周期和女人的具体参数。

statistics-and-mathematical-sciences-Woman-2-cycle-2

图5:女士2,周期2。

statistics-and-mathematical-sciences-Woman

图6:女人6周期4。

结论

因此,我们可以看到了吉布斯抽样算法是一种精确的方法评估层次模型的各种参数。最重要的是,变点分析给准确估计卵泡期的最后一天,排卵期间的天数,温度上升(附录)。这两个数据是至关重要的决定最肥沃的月经周期。这个话题是模型的自然延伸不健康的循环使用非参数方法。结合参数和非参数模型将允许更广泛的分析和更不寻常的数据集。

引用

麦克卢尔布朗JC。研究生妇产科第四版》355。伦敦:巴特沃斯》1973。
Ovagraph生育率图表。2015年www.ovagraph.com/chart-tags/typical-cycles.html。
斯卡帕B和Dunson DB。贝叶斯分层功能数据分析通过受污染的先验信息。生物识别技术。2009;65:772 - 780。
卡特RL和疫病BJN。一个贝叶斯变点问题的预测和检测与应用程序在女性排卵。生物识别技术。1981;371:743 - 751。
罗伊斯顿摩根大通和艾布拉姆斯RM。一个客观的方法检测女性基础体温的变化。Biometrics.1980;36:217 - 224