所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

另一种解决方案,霍特林丁字尺的异方差性下色散矩阵

Adebayo卖方*和通用欧尼尔

台大学统计学系、台、尼日利亚

*通讯作者:
Adebayo卖方
台大学统计学系、台、尼日利亚。
电子邮件:
bayooni3@gmail.com

收到日期:12/11/2018;接受日期:23/11/2018;发表日期:28/11/2018

访问更多的相关文章研究和评论:统计和数学雷竞技苹果下载科学杂志》上

文摘

这项工作重点发展替代过程多元Behrens-Fisher问题通过使用一个近似自由度测试从Satterthwaite采用单变量的过程。提出过程比较通过R包蒂姆(1975)所使用的模拟和真实数据与现有六(6)过程即:约翰逊,姚,Krishnamoorthy,凡德尔莫维霍特林丁字尺、内尔和和Yanagihara。发现,提出了过程执行的测试的力量比所有现有的程序考虑在不同的场景:(i)随机变量(p), (2) variancecovariance矩阵,(iii)样本量和(iv)显著水平(α)。和有利竞争的类型我和约翰逊错误率,姚,凡德尔莫维Krishnamoorthy Nel和。

关键字

方差协方差矩阵,线性组合,I型错误率,功率测试,异方差性,R统计软件包

介绍

假设我们有一个随机样本的大小n1,x11,x12,x13x,……1 n1N(μ112)和一个随机样本的大小n2,x21,x22,x23,。x2 n2N(μ222)。是想测试H0: u1, u2对H1:你1≠u2。如果σ1和σ2都是使用已知的正常测试。如果σ12但都是未知的t检验与测试常用的统计数据。

方程

在哪里方程

方程

界是一个类型的统计测试,用于比较两组的方式,如男人和女人,运动员与普通人,年轻和老年人,或者你可能想比较意味着测量单个组在两个不同的实验条件下或在两个不同的时期。t是一种参数化方法;他们可以使用正常的样品满足条件时,等于方差,和独立。t可分为两种类型。有独立学习,可当比较以下两组相互独立的,可以用配对t检验,当比较以下两组互相依赖。如果σ1≠σ2然后都是未知的,我们面临Behrens-Fisher问题。没有公认的测试过程这一问题虽然阵列的测试开发并将讨论在文学的评论。behren [1提出了统计数据。

在文献中,有一个修改后的检验统计量(t)当平等的方差的假设是违反了一直被称为Behrens-Fisher问题[1,2]。早期的调查显示,这个问题是可以克服的取代separatevariances测试,如韦尔奇(介绍的3,4和Satterthwaite] [5),为学生学习任务。这些修改意义测试,与通常的两个示例的学生学习任务,不会池计算误差项的方差。此外,他们改变了自由度的函数依赖于样本数据。人们已经发现,这些程序在很多情况下恢复错误概率名义显著性水平,并抵消II型误差的增加或减少6- - - - - -9]。

学生的学习任务是单变量和模拟霍特林T广场的多元版本和霍特林的T2有三个基本假设是统计的基础理论:独立、多元variance-covariance矩阵的常态与平等。统计测试过程据说是健壮或不敏感如果偏离这些假设不大大影响的显著性水平或能力测试。

使用霍特林的T2必须假定两个样本是独立的,他们(Σvariance-covariance矩阵相等12=Σ)。当variance-covariance矩阵不均匀和未知,检验统计量将不会作为T分布2。这种困境被称为多元Behrens-Fisher问题。

Behrens-Fisher问题地址区间估计和假设检验两个正态分布的差异意味着人口当两个种群的方差不相等。而多元behren——费舍尔问题处理测试两个正常的平等意味着向量下色散矩阵的异方差性。这些都是一些现有的多元Behrens-Fisher问题:姚(10],约翰森[11],内尔等人[12金),(13],Krishnamoorthy和Yu [14),Gamage et al (15Yanagihara和人民币[]16),和川崎和搜索引擎优化17)等等。但所有这些程序没有一个有百分之一百(100%)满意的试验和错误的力量。这些学者的工作自由度使用不同的方法分为四(4):近似自由度测试系列摘要测试,仿真测试,Transformation-based测试。

矫正人员(18),劳尔和汉19],李和Gurland [20.],墨菲[21),姚明(10),Algina和唐22金),(13],De la雷伊和Nel [23),克里斯坦森和加入24),欧尼尔和Adebayo25]。所有这些作者提到和更多的工作比较的一些多元Behrens-Fisher问题程序。

这项工作的目的是开发多元数据的另一个程序,将强劲的相比于其他程序和工作将首先介绍统计符号,将有助于理解概念。这是紧随其后的讨论过程,可以用来测试的假设多元统计假设时意味着平等和不满意。我们将展示如何获得测试健壮的协方差的异质性。

Multivariat Behrens-Fisher问题(现有的过程)

考虑两个p-variate正常人群方程方程在哪里方程方程未知的p×1的向量和Σ吗1和Σ2是未知的p×正定矩阵。

方程

方程分别表示这两个随机样本数量。我们感兴趣的测试问题

方程

因为我= 1,2,让

方程

方程

方程

然后方程方程满足均值向量和色散矩阵,是独立的随机变量的分布:

方程

其中Wp(r,Σ)表示p维wishart分布矩阵Σdf = r和规模。

方程

方程

方程

以下是现有的过程或解决多元Behrens-Fisher问题被认为是在这个研究

姚过程

姚(10),不变的测试。这是一个多元的延伸韦尔奇近似自由度的解决方案提供的土耳其和霍特林的检验统计量是基于变换T2。和基于方程

方程

方程

然后通过比较T评估统计显著性统计其临界值Fα(p, v-p + 1),也就是说,一个关键的价值从F分布p和v-p + 1自由度(df)

约翰森过程

约翰森(11Yanagihara和人民币[],不变的测试,16),川崎和隆(17]。他们用T2~《光伏在哪里

方程

方程

方程

和他提出的检验统计量方程

然后通过比较T评估统计显著性约翰统计其临界值Fα(p, v),也就是说,一个关键的价值从F分布p, v自由度(df)。

凡德尔莫维内尔和(1986)noninvariant解决方案

在这里,我们使用

方程除了v是定义的

方程

Krishnamoorthy和Yu(2004)的年代,林和王(2009),凡德尔莫维修改Nel /不变的解决方案

我们之前使用的想法,即

方程d.f。v定义为

方程

方程

方程

然后通过比较T评估统计显著性Krish统计其临界值Fα(p, v_kY-p + 1),也就是说,一个关键的价值从F分布p和v_kY-p + 1自由度(df)

Yanagihara和元程序使用基于级数展开的测试,开发了一个替代多元Behrens-Fisher问题的过程

方程

方程

方程

方程

方程

方程

霍特林的T2

方程

在哪里

方程

测试数据也可以被转换成一个F统计量,

方程

其中N = N1+ n2。统计学意义是v然后进行评估比较酒店统计其临界值Fα(p, N-p-1),也就是说,一个关键的价值从F分布p和N-p-1自由度(df)。

的均值和方差Χ2分布与N自由度

卡方分布定义n自由度

方程在哪里方程与分布相互独立的随机变量,N (0, 1)。

找到双方的期望值和方差,然后我们有

方程

方程

和Z的所有实例有相同的分布,然后呢

方程方程

在Z是分布的随机变量N (0, 1)。

方程

因此

方程(1)

Var (Z2)

方程

方程

现在

方程(2)

找到E (Z4),我们将使用这一事实对于任何连续随机变量X和概率密度函数f,和任何指数k,

方程

的概率密度函数f (N(0, 1)随机变量是由

方程

然后,方程

通过分部积分,我们有,方程

方程

方程(3)

因此公式(3)代入方程(2)然后我们

方程(4)

两样本t检验,我们将限制这项工作版本的测试,我们不认为这两个人口方差相等。我们随机抽样x1,…, xn1从分布的随机变量X N(μ11)和一个随机样本y1,…, yn2从随机变量Y分布(μ22)。我们有

方程严格地说,这个统计不遵循t分布,因此;

的方差方程方程作为一个估计量方程我们有方程

t bet-distribution,必须有多个的方程这是卡方分布,这并非如此。然而,请记住,在一次采样的情况下,方程与n - 1卡方分布的自由度。用类推的方法,我们有方程有一个卡方分布与r的自由度。Satterthwaite发现的真实分布方程和显示,如果r是选择卡方分布的方差r自由度等于真正的方差方程那么,在某些情况下,这种卡方分布与r的自由度是一个很好的近似的真实分布方程所以从这个角度,我们假定方程有分布方程。所以从方程(4)

方程(5)

方程(6)

将方程(5)和(6)

方程

方程(7)

现在方程和s1和s2是独立的,所以

方程(8)

我们知道方程有一个与n卡方分布11自由度,从方程(3)

方程

方程

方程(9)

方程(9)代入方程(8)

方程(10)

把方程(10)代入方程(7)

方程

方程(11)

在实践中,人口变化的值,方程方程是未知的,所以我们取代吗方程方程他们估计方程方程方程从方程(11)

方程

多元方法

我们应当考虑测试统计y1y和使用单变量Satterthwaite自由度近似方法提出基于T多元泛化2分布。我们有

方程

方程

方程

b是一个任意常数向量在哪里

方程

方程多变量的方程(5)的一个版本

方程(12)

多元方程(5)的一个版本是方程(12)

方程

方程

方程

方程

请注意方程(14)

把方程(14)方程(13)

方程

方程(15)

多元方程(9)的一个版本

方程(16)

把方程(16)方程(15)

方程(17)

方程(17)

方程

Σ人口变化的值是未知的,所以我们取代Σ吗和b 'Σb估计年代和b 'Sb

方程(18)

把方程(14)方程(18)

方程(19)

集b = S1y的方程(19)

方程(20)

方程(20)可以以这种形式

方程(21)

方程然后方程(22)

方程

方程(22)

方程(23)

则方程(23)提出了检验统计量的过程。然后通过比较T评估统计显著性道具统计其临界值方程也就是说,从F分布p和临界值方程自由度(df)

模拟研究

模拟研究使用R的包是为了进行估计和比较我错误率和权力类型为每个前面讨论的近似解(10,11,14),提出了过程,霍特林的T广场,14,16]。进行模拟时,零假设是正确和不正确的,多元正态分布,当有不平等variancecovariance矩阵。五(5)因素变化的模拟:样本的大小,数量的变量p,方差协方差矩阵,向量,和显著水平。对于上面的组合,一个倪×p矩阵X的数据(i = 1和2)复制1000。比较标准;I型错误率和权力的测试也因此获得的结果表格。

以下是用于每个水平三个因素。

这些水平提供36-factor组合样本容量所示的值表1

多元分布 P 一个 样本大小
正常的 2、3、4 0.01 20日10
2、3、4 0.025 50、30
2、3、4 0.05 100年,60

表1:用于每个三个因素的水平。

结果

表2凡德尔莫维内尔和最高权力的测试当样本量很小(20、10)但在(50、30)和(100年60)拟议的过程有最高的权力比所有其他程序。

P = 2 一个ƒ€š‚= 0.01
X1= (20 30) n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.3852 0.3872 0.3872 0.3861 0.2146 0.3915 0.2487
X230 = (10) 50、30 0.8332 0.8349 0.8346 0.8374 0.6672 0.8348 0.7691
100年,60 0.991 0.9911 0.9911 0.9912 0.9497 0.9911 0.9865
一个ƒ€š‚方程 一个ƒ€š‚= 0.025
n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.5037 0.5043 0.5045 0.5037 0.3158 0.508 0.3787
50、30 0.8903 0.8911 0.8909 0.8926 0.7609 0.891 0.8528
方程 100年,60 0.9959 0.9959 0.9959 0.996 0.973 0.9959 0.9941
一个ƒ€š‚= 0.05
n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
方程 20日10 0.6106 0.6105 0.6104 0.6099 0.4201 0.6133 0.5092
50、30 0.9319 0.932 0.9319 0.9329 0.8348 0.932 0.911
100年,60 0.9982 0.9982 0.9982 0.9983 0.9855 0.9982 0.9975

表2:的力量测试。

表3,当样本容量(20、10)提议的过程是名义上而使在饭店下榻Yanagihara [T广场和16)低于名义水平,但在(50、30)和(100年60)所有程序都低于名义水平,0.01显著水平。在α= 0.025,所有的程序都膨胀在(50、30)和放气(20、10)和(100、60)。

P = 2 一个ƒ€š‚= 0.01
X1= (20 30) n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.011 0.011 0.011 0.01 0.002 0.011 0.002
X2= (20 30) 50、30 0.007 0.007 0.007 0.007 0.001 0.006 0.004
100年,60 0.008 0.008 0.008 0.008 0 0.008 0.008
一个ƒ€š‚方程 一个ƒ€š‚一个= 0.025
n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.017 0.017 0.017 0.018 0.003 0.018 0.005
50、30 0.026 0.027 0.026 0.027 0.008 0.026 0.015
方程 100年,60 0.015 0.015 0.015 0.015 0.002 0.015 0.009
一个ƒ€š‚一个= 0.05
n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
方程 20日10 0.048 0.049 0.049 0.048 0.006 0.049 0.023
50、30 0.045 0.044 0.045 0.046 0.011 0.045 0.035
100年,60 0.057 0.057 0.057 0.057 0.016 0.057 0.051

表3:第一类误差。

表4,很明显,提出了过程执行比所有其他程序(50、30)和(100、60)但是内尔和凡德尔莫维更好当样本容量(20、10)在所有的情况下考虑。

P = 3 一个ƒ€š‚= 0.01
方程 n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.2029 0.2198 0.2054 0.2147 0.1313 0.2278 0.0895
方程 50、30 0.6107 0.6182 0.6154 0.6217 0.4472 0.6203 0.5187
100年,60 0.9295 0.9312 0.9307 0.9322 0.8107 0.9315 0.9073
一个ƒ€š‚一个一个ƒ€š‚方程 一个ƒ€š‚= 0.025
n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.2954 0.312 0.2983 0.3062 0.206 0.3205 0.1684
50、30 0.7137 0.7195 0.7173 0.7222 0.5602 0.7209 0.6451
方程 100年,60 0.9596 0.9606 0.9603 0.9611 0.877 0.9608 0.9478
一个ƒ€š‚= 0.05
n1≠n2 约翰 Krish Propo 酒店 Nel 雅娜
方程 20日10 0.4095 0.4255 0.4122 0.4207 0.3002 0.4334 0.2743
50、30 0.7952 0.7992 0.7978 0.8012 0.6624 0.8003 0.7475
100年,60 0.9754 0.976 0.9758 0.9763 0.9199 0.9761 0.9692

表4:的力量测试。

表5,所有程序的I型错误率是波动的,充气或放气。0.01显著水平,0.02,0.05他们错误的通货膨胀率,当样本量(50、30)和(100、60),但在(20、10)最所有程序都泄气。

P = 3 一个ƒ€š‚= 0.01
方程 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.007 0.008 0.008 0.006 0.014 0.013 0
方程 50、30 0.011 0.01 0.011 0.09 0.013 0.011 0.006
100年,60 0.015 0.015 0.015 0.015 0.018 0.015 0.013
一个ƒ€š‚一个一个ƒ€š‚方程 一个ƒ€š‚= 0.025
约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.035 0.033 0.035 0.027 0.033 0.041 0.003
50、30 0.025 0.027 0.026 0.024 0.032 0.028 0.011
方程 100年,60 0.029 0.031 0.031 0.03 0.039 0.031 0.026
一个ƒ€š‚一个= 0.05
约翰 Krish Propo 酒店 Nel 雅娜
方程 20日10 0.059 0.066 0.068 0.048 0.049 0.073 0.013
50、30 0.053 0.059 0.055 0.056 0.052 0.057 0.042
100年,60 0.061 0.061 0.062 0.061 0.056 0.063 0.051

表5:第一类误差。

表6显示当样本容量(20、10)凡德尔莫维内尔和表现好于其他程序,但当样本容量增加(50、30)提出程序更好。和有一个伟大的程序之间的竞争(100、60)。

P = 4 一个ƒ€š‚= 0.01
方程 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.343 0.3589 0.3599 0.3508 0.1974 0.3737 0.078
一个ƒ€š‚方程 50、30 0.86 0.8712 0.8711 0.875 0.7027 0.8734 0.6825
100年,60 0.9968 0.9971 0.9971 0.9973 0.9733 0.9972 0.9902
方程 一个ƒ€š‚一个= 0.025
约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.4656 0.48 0.4817 0.4721 0.297 0.4946 0.1604
50、30 0.918 0.9249 0.9247 0.9271 0.799 0.926 0.8057
方程 100年,60 0.9991 0.9992 0.9992 0.9992 0.9888 0.9992 0.9971
一个ƒ€š‚= 0.05
约翰 Krish Propo 酒店 Nel 雅娜
方程 20日10 0.5662 0.5793 0.5804 0.5731 0.3905 0.5914 0.2585
50、30 0.9507 0.9547 0.9547 0.9561 0.8649 0.9555 0.886
100年,60 0.9995 0.9996 0.9996 0.9996 0.9938 0.9996 0.9987

表6:I型错误率

霍特林T [26yanagihara[]广场和16)低于名义水平在所有的情况下,而其他过程波动(充气或放气)的名义水平表7

P = 4 一个ƒ€š‚= 0.01
方程 约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.008 0.013 0.011 0.011 0.002 0.013 0
一个ƒ€š‚方程 50、30 0.011 0.012 0.012 0.012 0.001 0.012 0.002
100年,60 0.007 0.007 0.007 0.007 0 0.007 0.004
方程 一个ƒ€š‚= 0.025
约翰 Krish Propo 酒店 Nel 雅娜
20日10 0.024 0.029 0.031 0.026 0.004 0.033 0
50、30 0.02 0.026 0.026 0.026 0.003 0.026 0.006
方程 100年,60 0.021 0.022 0.022 0.022 0.002 0.022 0.01
一个ƒ€š‚= 0.05
约翰 Krish Propo 酒店 Nel 雅娜
方程 20日10 0.05 0.055 0.055 0.051 0.009 0.06 0
50、30 0.048 0.051 0.051 0.051 0.012 0.051 0.022
100年,60 0.052 0.053 0.052 0.053 0.008 0.053 0.034

表7:的力量测试。

数据集(插图)

这里使用的数据是一个说明的例子使用的蒂姆。这两个样本大小分别为10和20 (n1= 10 n2= 20)和两个随机变量(p = 2)形式。

样本均值和协方差

方程

方程

n1n = 10日2= 20

意味着之间的差异

方程

和测试统计

方程

方程

T2= 11.58542

表8,该程序具有最高权力Yanagihara[紧随其后16],Krishnamoorthy [14),姚明(10],霍特林丁字尺[26],约翰森[11]凡德尔莫维内尔和[14)所有的显著水平α认为(α= 0.05,0.025和0.01)。

一个ƒ€š‚= 0.05
约翰 Krish Propo 酒店 Nel 雅娜
临界值 6.978 7.2012 7.223 7.7396 6.9567 6.9601 10.0088
权力 0.4979 0.5109 0.5121 0.868 0.5068 0.4969 0.6244
一个ƒ€š‚= 0.025
临界值 8.852 9.1661 9.1987 9.9867 8.7984 8.8036 13.8708
权力 0.62 0.6334 0.6347 0.9325 0.6273 0.618 0.7527
一个ƒ€š‚一个= 0.01
临界值 11.4986 11.9613 12.0129 13.2753 11.3828 11.3908 20.3456
权力 0.7503 0.7625 0.7638 0.9732 0.7551 0.7456 0.868

表8:结果说明的例子。

发现

从仿真,很明显表1,35当样本容量非常小(20、10)提出过程不是最好,但当样本容量增加(50、30)和(100、60),提出过程表现得比所有程序。凡德尔莫维内尔和(14)表现得更好当样本容量非常小(20、10)其次是姚10],Krishnamoorthy [14),提出了程序的测试在所有场景的力量。

的I型错误率,提出过程有利竞争与其他程序选择这个研究。姚(10],Krishnamoorthy [14],约翰森[11凡德尔莫维],内尔和(14),该程序波动(充气和放气)在名义水平而霍特林T [26Yanagihara[]广场和16)低于名义水平。

引用