所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

的贝叶斯方法模型选择算法

Krzysztof W Fornalski1*和Ludwik Dobrzynski2

1铂族元素EJ 1,华沙,波兰

2国家核研究中心(NCBJ) Otwock-Swierk,波兰

*通讯作者:
Krzysztof w . Fornalski
铂族元素EJ 1, ul。米西亚2 00 - 496年华沙,波兰
电子邮件: (电子邮件保护)

收到:22/06/2015接受:04/08/2015发表:26/10/2015

访问更多的相关文章研究和评论:统计和数学雷竞技苹果下载科学杂志》上

文摘

介绍了稳健贝叶斯方法实验数据分析。首先,介绍了数据点的曲线拟合的算法。基于稳健贝叶斯方法是回归分析,从而大大减少外围数据点(异常值)的作用。第二部分给出了贝叶斯模型选择算法。最后,讨论了这两种方法的典型应用。

关键字

贝叶斯模型选择,强大的分析、回归、贝叶斯分析。

介绍

实验数据的性质由几个元素组成,例如数据点受到大的不确定性和/或大分散。因此寻找最repable曲线描述数据点可能不是一个轻松的任务。然而,一旦达到这一目标,科学家们能想出一般结论或理论研究对象或现象。

拟合曲线对应的形式作为一个规则理论旨在描述数据。然而,实验数据点的分散和不确定性意味着许多潜在的模型同样可以描述这些数据。因此必须决定哪些模型(还有其他好的)是最repable pght分析数据。

论述了健壮的数据分析的两个重要元素:贝叶斯方法拟合曲线的数据(回归分析)和模型选择算法。

健壮的曲线拟合

健壮的数据符合(或稳健回归分析)的一部分被称为鲁棒统计,统计方法不代表过度影响outpers [1]。在这种情况下,一个outper是一个数据点,明显偏离点的主要趋势,如由于强大的系统误差。所有强大的分析的主要目的是找到最适合曲线的数据点存在,这种潜在outpers最小敏感。

使用健壮的贝叶斯和获得的结果之间进行简单的比较经典的最小二乘方法(2)提出了图1。可以清楚地看到,outpers在经典最小二乘法将导致非常具有误导性的结论,而贝叶斯显然适合繁殖的主要趋势好像outpers不在的数据。这是源于这一事实i数据点出现的probabipty probabipty密度函数(PDF), P,由一个适当的高斯分布(所谓的pkephood函数)在其之前的期望值以及功能为其probabiptyσi [3]。如果有人怀疑,真正的不确定性可能会比最初报价,图像,你可以选择这样的之前图像最终结果:

statistics-and-mathematical-sciences-robust

图1:健壮的贝叶斯的例子(黑色实线)和最小二乘(灰色虚线)一些虚拟实验数据符合三个异常值(突出点)(4、6)。

图像(1)

象征D对应的第i个实验数据值,M是一个模型(理论)曲线,如多项式图像x是第i个自变量,λ表示i参数。前右函数σi eq。(1)假设的第i个分析probabiptyσi pes之间原来(σ0我)和无穷3,4),如前所述。厄普。其特殊的选择上面提到导致封闭形式的解决方案。如图所示Sivia和Skilpng [3这种形式可能不同,但是,它并不影响最终结论。过程使所有的权重outpers无关紧要的低计算后probabipty分布P N个点,测量,根据最大pkephood法(4,5)也可以使用一个金额,而不是产品:

图像(2)

π是一个情商的集成的结果。(1)对单点我:

图像(3)

分化后的对数probabipty S / n拟合参数λ={λ12、&helpp;λn},一个可以找到最后和贝叶斯拟合方程的一般形式3]:

图像(4)

上述重量gi的点是:

图像(5)

方程(4)可以实现直接找到最好的贝叶斯计算算法适合所有实验数据点(x ND)和垂直σ0i每个不确定性。如前所述•厄普,Mi意味着理论价值预测的假设模型和最好的安装n参数,M12、&helpp;λn)。这种技术是用于拟合pnear函数的M12x提出了图1

Sivia和Skilpng提出的这种方法,3),而不是常用的研究如流行病学数据,被广泛应用于我们的论文(4- - - - - -10]。

模型选择算法

贝叶斯分析允许一个评估的相对repabipty两个选择模型能够描述数据(pke AIC模型选择的经典方法1或其他贝叶斯的pke BIC2在这里,我们将省略)。使用这种分析的例子可以发现(4- - - - - -10]。

贝叶斯定理的probabipties连接P(模型|数据)~(数据|模型),可用于估计两个模型的相对repabipty,女士,在相同的数据的情况下,d模型的repabipty M拟合参数λ,使用marginapzation过程可以写成[3]:

图像(6)

P (D |λ,M)对应于pkephood函数,由周围的高斯分布期望值λ0±σλ最大probabipty pkephood函数= P (D |λ0,M)。之前probabipty P(λ|米)可以被假设为均匀分布U(λ最小值马克斯)。因为这种形式的P(λ|米)独立于λ,积分(6)可以写成3]:

图像(7)

的结果(7)可以近似积分因为“大幅在λ的否决最小值和λ马克斯不引起显著的截断高斯“probabipty分布从情商。(7)3]。因为λ0对应参数发现的健壮的贝叶斯最适合方法模型M(见eq。(4)), pkephood函数的最大值P (D |λ0,M)可以取代的π的eq。(1)或(3)的最终形式repabipty函数可以近似(7- - - - - -8]:

图像(8)

右手eq。(8)称为一个奥克汉的因素。方程(8)对应情况,模型M只有一个(n = 1)拟合参数,λ0±σλ。对于模型不包含参数= 1的奥克汉因素和模型M是一个常数值(Mi =常量)。因此,如果这样一个模型描述了数据同样作为模型包含一个参数,奥克汉因素总是倾向于前一个。

对于n拟合参数λ={λ12、&helpp;λn估计不确定性σ}λ={σ12、&helpp;σn},最一般形式的eq。(8)可以表示为6,8]:

图像(9)

让我们回想一下,N代表实验数据点的数量(xD)和“垂直”不确定性σ0i,模型M安装使用n的拟合参数λ±σλ。最成问题的是值λ的选择最小值和λ马克斯对所有λs,。在最简单的情况下,他们可以被视为最小/最大可能值的考虑参数λ使用可以容忍的最大跨度的数据。为了不扩展的范围λ的大量分散的数据,允许不超过如三分体育以外的范围(8]。

在最后一步的分析可以计算每两个模型的相对价值,A和B,检查哪些更pkely描述数据:

图像(10)

当W大于1,模型一个赢得当W / b≈1,两款车型都有相同程度的bepef。一般来说,女可以量化的偏好模型对另一个。在实践中,真正的W的值可能表明plausibipty模型可以在不同的数量级Fornalski和DobrzyA…„滑雪(8]。

讨论和实际应用

贝叶斯模型选择算法可以应用在所有情况下,当明确区分模型难以获得,甚至是不可能的。过程提出了一个很好的例子图2pnear和parabopc模型似乎是合适的。在考虑情况下描述的eq。(10) (5]:

statistics-and-mathematical-sciences-two-models

图2:两个模型的拟合:线性(黑线)和抛物线(灰色线)广泛分散的数据之一。模型选择算法倾向于线性模型,W≈30 [5]。

图像(11)

直pne和抛物线被实现为RAi =(一)习+ b(一)- Di和央行=(B)习²+ b(B)习+ c(B)- Di,分别。在这个ituation Wm≈30的价值,这意味着模型(pne)约30倍pkely B(抛物线)(图2)。

事实上,情商的r.h.s.。(11)也可能是multipped W0= P0(一)/ P0(B) -前的比率bepefs模型中对模型B。例如,如果一个人知道pnear关系不应该描述数据,这些额外的因素源于将改变上述的贝叶斯分析的结论。然而,在上面的示例中它被认为,W0= 1。

给出了示例显示了一个在各种科学研究受欢迎。如前所述•厄普、模型选择合适的现有数据是一个非常重要的问题。然而,最常见的方法关注拟合模型的假设,不考虑其实际plausibipty。例如parabopc关系可能是一些物理或生物理论的结果,测试的实验(数据源)。另一方面,在缺乏一个强有力的信息,给没有任何偏好模型(W0= 1)是明智的。在示例中给出图2pnear模型是足够的对于这样广泛分散数据的描述。

提出了类似的情况图3,可以直接观察pne和正弦信号的一部分。正弦函数是一些理论的结果(如机械振荡)pnear配件是最简单的近似的广泛分散的数据在一些非常pmited范围。在这个例子中W的健壮的统计数据0= 1 pnear关系中最可能的拟合结果。这是不符合假定的理论和显示不使用之前的缺陷优先正弦模型。

statistics-and-mathematical-sciences-linear-fit

图3:线性符合(实线)作为一个好的近似正弦曲线的关系(虚线)的光散射数据,W≈5 [5]。

非常重要和实际案例提出了图4,在哪里可以找到实际的物理描述观察到的现象(在这里:癌症mortapty比率辐照核工人)。精确的模型关系到人类的健康,这是一个非常重要的问题。然而,在许多法规,例如辐射防护标准,一些最初的假设是考虑。在全球标准更经常使用pnear关系,这来自提到的假设,所有的辐射是有害的。然而,单纯从统计的角度来看,这样的声明只不过是用degree-of-bepef的现有数据。因此,与前面的示例相似,简单模型(这里:恒定值,M = const)比pnear关系[pkely适合9]。的事实,这是因为巨大的散射点更comppcated模型假设,不是真实的效果。相似的情况下可以找到当癌症mortapty自然背景辐射分析使用贝叶斯推理(10]。

statistics-and-mathematical-cancer-mortality-fit

图4:´的算法应用于辐照核工人的癌症死亡率[9]。单参数常数模型(灰色水平线)更有可能比一个线性(黑线),W≈2。

贝叶斯模型选择算法可以应用到各种情况下,每当需要选择最合适的曲线。最新apppcation细胞遗传学的方法引入生物剂量测定法(11)找到最好的染色体畸变capbration曲线测试顺便辐照人。然而,这只是一个例子,而不是可能的apppcations齐全。

结束,健壮的贝叶斯回归方法(数据拟合曲线)和模型选择算法是通过一些示例进行描述和演示。这两种方法都适用于达夫的情况数据,并且可以在这种情况下,推荐使用。

引用

全球技术峰会