使用等于假设的p值拒绝假设是否不属于置信区间?


29

在正式得出估计的置信区间的同时,我得出了一个公式,该公式与值的计算方式非常相似。p

因此,问题是:它们在形式上等效吗?即拒绝假设的临界值等于不属于具有临界值\ alpha的置信区间。α 0 αH0=0α0α


2
@f coppens:是的,如果使用两个具有不同统计量的检验,最终将得到两个不同的置信区间。但是我认为OP发现了一个基本事实:置信区间和p值都是从同一统计量的分布中获得的,因此它们都可以用来决定是否拒绝零假设。
StijnDeVuyst

1
@StijnDeVuyst:某个比例的Clopper / Pearon间隔和某个比例的Sterne间隔均从具有相同大小的二项式分布中得出(p未知,因为它们找到了p的置信区间)。Clopper / Pearson和Sterne之间的差异是由于二项式密度的不对称。Sterne区间尝试使区间的宽度最小化,而Clopper_pearson尝试保持对称性(但是由于二项式的偏斜,只能近似地找到)。

6
一般而言,不。考虑以下情况:间隔的宽度是参数估计值的函数,而对于测试,间隔的宽度是假设参数的函数。一个明显的例子是测试二项式p。让我们使用普通的近似值。为了简单起见(尽管参数的形式不依赖于它)。考虑n = 10,且p = 0.5为零。想象一下观察两个头;null不会被拒绝(因为“ 2”在95%间隔内大约为0.5),但p的CI不包括0.5(因为CI小于null之下的间隔宽度。)
Glen_b-恢复莫妮卡

4
或者,如果您需要它足够大以至于可以正常使用,则尝试以1000次抛掷469个头,H0 p = 0.5;同样,p的95%CI不包括0.5,但5%检验不拒绝,因为H0下的相应区间宽度比替代方案下的区间宽度宽(这是您从中进行CI运算的结果)。
Glen_b-恢复莫妮卡

4
@Glen_b:似乎这个较新的问题stats.stackexchange.com/questions/173005提供了一个确切说明您在此处描述的情况的示例。
变形虫说恢复莫妮卡

Answers:


32

是的,没有。

首先是

您所观察到的是,当测试和置信区间基于相同的统计量时,它们之间是等效的:我们可以将值解释为的最小值,其中参数的空值将包含在置信区间中。α 1 - αpα1α

令为参数空间的未知参数,并让样本是随机变量。为简单起见,将置信区间定义为随机区间,以使其覆盖概率 (您可以类似地考虑更一般的间隔,其中覆盖率概率以为边界或近似等于。推理类似。)Θ - [R X = X 1... X ÑX ñř Ñ X = X 1... X ÑαXP θθ αX= 1 - αθΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X) 1 - α

Pθ(θIα(X))=1αfor all α(0,1).
1α

考虑针对零点假设对于替代项。令表示测试的p值。对于任何,如果则在级别拒绝。级别拒绝区域是的集合,导致拒绝: ħ 1θ 0θ θ 0 λ θ 0Xα ∈ 0 1 H ^ 0θ 0α λ θ 0X α α αθ 0= { XH0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)αλ(θ0,x)αα ħ 0θ 0- [RxH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

现在,考虑对进行p值的双面测试。对于这样的族,我们可以定义一个反向拒绝区域θ ∈ Θλ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

对于任何固定的,如果,则被拒绝,这仅当且仅当发生时,也就是说, 如果测试基于具有完全指定的绝对连续零分布的测试统计信息,则在。然后 由于式适用于任何ħ 0θ 0X[R αθ 0θ 0Q αXX[R αθ 0θ 0Q αXλ θ 0Xù0 1 H ^ 0θ 0θ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)P θ 0X[R αθ 0H0(θ0)θ 0Θ P θ 0X[R αθ 0Q αXθ 0 α Q Ç αXQ αXθ 0Θ P θ
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α
θ0Θ并且由于上面的方程式意味着那么随机集始终以概率覆盖真实参数。因此,让表示的补码,对于所有我们有 这意味着反向排斥区域的补码是的置信区间。
Pθ0X[Rαθ0=Pθ0θ0αX
αXθ0ααCXαXθ0Θ1-αθ
Pθ0θ0αCX=1个-α
1个-αθ

下面给出了一个说明,显示了对于正常平均值的检验所对应的拒绝区域和置信区间,对于不同的null平均值和不同的样本平均值(。如果在浅灰色阴影区域中则被拒绝。深灰色显示拒绝区域和置信区间。 žθX¯σ=1个H0θX¯θ[R0.05-0.9=--1.52-0.281一世0.051个/2=0.05C1个/2=-0.1201.120在此处输入图片说明

(其中大部分来自我的博士学位论文。)

现在换“不”

上面我描述了构建置信区间的标准方法。在这种方法中,我们使用与未知参数相关的一些统计信息来构造间隔。也有基于最小化算法的区间,该区间试图根据的值最小化区间条件的长度。通常,这样的间隔不对应于测试。θX

这种现象与与未嵌套此类间隔有关的问题有关,这意味着94%的间隔可以比95%的间隔短。有关更多信息,请参阅我的最新论文的 2.5节(出现在Bernoulli中)。

还有第二个“不”

在某些问题中,标准置信区间不是基于与标准检验相同的统计量(如Michael Fay在本文中所讨论的)。在这些情况下,置信区间和检验可能不会得出相同的结果。例如,即使置信区间中包含,可能会被测试拒绝。这与上面的“是”并不矛盾,因为使用了不同的统计信息。θ0=0

有时“是”不是一件好事

正如f coppens在评论中指出的,有时间隔和测试的目标有些矛盾。我们需要较短的时间间隔和高功率测试,但是最短的时间间隔并不总是与最高功率的测试相对应。有关此示例,请参阅本文(多元正态分布)或(指数分布),或论文的第4节。

贝叶斯人也可以说是与否

几年前,我在这里发布了一个问题,关于贝叶斯统计中是否也存在检验间隔等价性。简短的答案是,使用标准贝叶斯假设检验,答案为“否”。通过稍微修改测试问题,答案可以是“是”。(我试图回答自己的问题的尝试最终变成了论文!)


2
好的答案(+1)和(您部分这样做)可能会指出一个事实,即有时置信区间和假设检验的目标(可能)相互矛盾:有人试图找到一个“尽可能小”的置信区间。为了进行假设检验,人们试图找到一个“尽可能强大”的关键区域。

@fcoppens:谢谢你的建议!我已经用一些有关此行的内容更新了我的答案。
MånsT

好论文!您是否也在Sterne间隔上工作?

@fcoppens:是的,我已经做了一些工作斯特恩区间,主要分布在本文中
MånsT

7
@amoeba:实际上,我认为他的“不”是我的第二个“不”。据我所知,他的置信区间基于统计量和检验在统计量。注意分母的差异。您可以使用任何一个统计量来构造测试和时间间隔,并且只要对两者使用相同的统计量,就不会出现差异。Ť1个=p^-p/p^1个-p^/ñŤ2=p^-p/p1个-p/ñ
MånsT

2

当查看单个参数时,可能会根据参数的构造方式对参数的值和置信区间“不匹配”进行测试。尤其是,假设检验是一个水平 -test,如果它在原假设为真时按零比例拒绝原假设。因此,可以使用仅在无效假设下有效的模型参数(例如方差)估计值。如果随后尝试通过反转此检验来构造CI,则在替代假设下,覆盖范围可能不太正确。因此,通常会以不同的方式构建置信区间,以使覆盖范围也恰好位于替代项下,这可能会导致(通常很小)不匹配。αα

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.