为什么在原假设下p值均匀分布?


115

最近,我发现在Klammer等人的论文中。p值应均匀分布的声明。我相信作者,但不明白为什么会这样。

Klammer,AA,Park,CY和Stafford Noble,W.(2009)SEQUEST XCorr函数的统计校准蛋白质组研究杂志。8(4):2106-2113。


24
从使用零假设下的分布将p值定义为检验统计量的概率积分变换开始,这是直接的。结论要求分布是连续的。当分布是离散的(或具有原子)时,p值的分布也是离散的,因此只能近似均匀。
ub

1
@whuber给出了我怀疑的答案。我要求原始参考文献只是为了确保翻译中不会丢失某些内容。通常,文章是否具体并不重要,统计内容始终通过以下方式显示:)
mpiktas,2011年

10
仅当为true时H0!...,更严格地说,只有在连续的情况下才可以(尽管在非连续情况下确实如此;对于最一般的情况,我不知道合适的词;这不是统一的)。然后,它遵循p值的定义。
Glen_b

2
可以将其视为基本统计力学原理的一种变体(学生经常会遇到类似的困难),即物理系统的所有微观状态均具有相同的概率。
DWin

Answers:


83

澄清一下。当零假设为真且满足所有其他假设时,p值均匀分布。这样做的原因实际上是将alpha定义为I型错误的概率。我们希望拒绝一个真实的零假设的概率为alpha,当观察到的时,我们拒绝。对于任何alpha值,这种情况发生的唯一方法是p值来自于一个均值分配。使用正确分布(正态,t,f,chisq等)的全部目的是将检验统计量转换为统一的p值。如果原假设为假,则p值的分布(希望)将更趋于0。p-value<α

R 的TeachingDemos软件包中的Pvalue.norm.simPvalue.binom.sim函数将模拟几个数据集,计算p值并将其绘制以证明这一思想。

另请参阅:

默多克(D.Murdoch),蔡(Y.)蔡(Y)和阿德科克(Adcock)(2008)。P值是随机变量。美国统计学家62,242-245。

有关更多详细信息。

编辑:

由于人们仍在阅读此答案并发表评论,因此我认为我将解决@whuber的评论。

的确,当使用诸如类的复合零假设时,p值仅在2个均值完全相等时才是均匀分布的,并且如果是小于。使用该函数并将其设置为进行单面测试并通过模拟进行仿真可以很容易地看出这一点,并且假设的方法有所不同(但在使null为真的方向上)。μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

就统计理论而言,这无关紧要。考虑一下我是否声称自己比家人中的每个成员都高,一种检验此说法的方法是将我的身高与您家人中每个成员的身高进行一次比较。另一种选择是找到家庭中最高的成员,并将其身高与我的高度进行比较。如果我比那个人高,那么我也比其他人高,我的主张是正确的;如果我不比那个人高,那么我的主张是错误的。测试复合null可以看作是一个相似的过程,而不是测试所有可能的组合,其中我们只能测试相等部分,因为如果我们可以拒绝支持μ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1个μ 2个 αμ1μ2μ1=μ2μ1>μ2那么我们知道我们也可以拒绝所有可能性。如果我们在情况下查看p值的分布,则分布将不是完全均匀的,而是会有更多的值更接近于1而不是接近于0,这意味着类型I错误的概率将小于所选的值使其成为保守测试。当接近,均匀分布成为极限分布μ1<μ2μ1<μ2αμ1μ2(在统计理论上比较新潮的人可能会以分配的最高水平或类似的观点更好地陈述这一点)。因此,通过构造假设零位相等部分的测试(即使是空值是复合的),则我们将测试设计为对于任何条件为零的I型错误的概率至多为。α


很抱歉我介绍的错字(应该\leq在TeX中阅读)!
chl

1
文章“ P值是随机变量”真的很有趣,是否有任何介绍性文章都遵循本文所述的原则?
亚历山德罗·贾科普森

8
尽管我对此问题发表了评论,但我后来意识到,除特殊情况外,结论并不正确。复合假设(例如。现在,“原假设为真”涵盖了许多可能性,例如。在这种情况下,p值将不会均匀分布。我怀疑有人会制造(某种程度上是人为的)情况,无论原假设的哪个元素成立,p值的分布都不会接近均匀。μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
ub

1
@Greg Snow:我认为p值的分布并不总是均匀的,当从连续分布中计算出p值时,它是均匀的,但是从离散分布中计算出p值时,则不是均匀的

1
我在上面扩展了答案,以解决@whuber的评论。
格雷格·斯诺

26

在原假设下,您的检验统计量具有分布(例如,标准正态)。我们证明p值具有概率分布 换句话说,是均匀分布的。只要是可逆的,它就成立,其必要条件是不是离散的随机变量。TF(t)P=F(T)P F

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

该结果是一般的:随机变量的可逆CDF的分布在上是均匀的。[0,1]


8
您可能想重新表达您的最新评论,这有点令人困惑。连续的CDF不一定具有(适当的)逆。(您能想到一个反例吗?)因此,您的证明需要其他条件才能成立。解决此问题的标准方法是定义伪逆。这个论点也变得更加微妙。F(y)=inf{x:F(x)y}
主教

1
关于使用广义逆,请参阅link.springer.com/article/10.1007%2Fs00186-013-0436-7(特别是,F(T)仅在F是连续的情况下才是统一的-F是可逆的还是F都无关紧要不)。关于p值的定义:我不认为它总是 'F(T)'。它是采用比观察到的值更极端的值的概率(零值以下),因此它也可能是生存函数(此处准确地说)。
Marius Hofert'3

是不是的CDF?F(t)
zyxue

@zyxue是的,cdf有时也称为“发行版”。
mikario

6

令表示对于所有具有累积分布函数的随机变量。假设是可逆的,我们可以得出随机p值,如下所示:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

从中我们可以得出结论,在上的分布是均匀的。[ 0 1 ]P[0,1]

这个答案类似于查理的答案,但是避免了定义。t=F1(p)


如您所定义的F,是不是P = F(T)= Pr(T <T)= 0?
TrynnaDoStat

不完全是,的“语法替换” 有些误导。从形式上讲,是由定义的随机变量F T F T ω = F T ω = Pr T < T ω F(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

在两个自变量之间进行线性回归的情况下,简单模拟p值的分布:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

7
您能否详细说明如何回答这个问题?尽管其输出说明了断言的特殊情况,但是没有任何代码能够解决为什么这样的问题?这需要额外的解释。
ub

-1

我认为这些答案中的大多数实际上并不能笼统地回答这个问题。它们只限于存在简单零假设且检验统计量具有可逆CDF的情况下(如CDF严格增加的连续随机变量)。这些情况是大多数人倾向于通过z检验和t检验关注的情况,尽管对于检验二项式均值(例如),没有CDF。对于这些受限制的情况,上面提供的内容在我看来似乎是正确的。

如果零假设是复合的,那么事情就更复杂了。雷曼和罗曼诺(Lehmann and Romano)的“测试统计假设”(第63-64页)提供了我在综合案例下使用有关拒绝区域的一些假设所见到的最普遍的事实证明。我将尝试重现下面的论点...

我们测试零假设与备择假设基于测试统计,我们将表示为随机变量。假定检验统计量来自某个参数类,即,其中是概率分布族的一个元素,而是参数空间。零假设和替代假设在其中 形成的分区H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
其中
Θ0Θ1=.

测试结果可以表示为 ,其中对于任何集合我们定义 这里是我们的显着性水平,表示测试对显着性水平的拒绝区域

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

如果则拒绝区域满足 。在嵌套拒绝区域的情况下,不仅确定是否以给定的显着性水平拒绝原假设,而且确定可以拒绝原假设的最小显着性水平,这是有用的。这个水平称为p值, 这个数字使我们对数据的强度(如检验统计量)与原假设相矛盾。

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

假设表示而。此外,假设拒绝区域遵守上述嵌套属性。然后,以下内容成立:XPθθΘH0:θΘ0Rα

  1. 如果对于所有,则对于, supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. 如果对于对于所有,我们都有,那么对于我们具有 θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

注意,这第一属性只是告诉我们,假阳性率是在控制通过拒绝当p值小于,并且所述第二属性告诉我们(给予额外的假设),该p-值空下均匀地分布假设。uu

证明如下:

  1. 设 ,并假设对于所有。然后根据的定义,我们对所有具有。通过单调性和假设,可以得出所有。令,则遵循。θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. 令,并假设对于所有,。然后,通过单调性,得出。考虑(1),得出。 θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

注意,即使检验假设是简单的而不是合成的,当检验统计量是离散的时,(2)中的假设也不成立。以其中和。即,将硬币掷十次,并测试它是否公平或偏向正面(编码为1)。在10次公平硬币掷骰中看到10个正面的概率为(1/2)^ 10 = 1/1024。在10次公平的硬币掷骰中看到9或10个正面的概率为11/1024。对于严格位于1/1024和11/1024之间的,如果,则您将拒绝null ,但是对于那些值,我们没有何时XBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5。代替这种。 Pr(XRα)=1/1024α


应该澄清莱曼和罗曼诺所提供的一般性适用于一般拒绝地区。仍然只有复合空值和非连续测试统计信息的“有效” p值。
亚当

-12

如果p值在H0下均匀分布,则意味着p值为.05的p值为.80的p值,但事实并非如此,因为观察到p值的可能性较小。值是.05的p值而不是.80的p值,因为这恰好是从中提取p值的正态分布的定义。根据定义,落入正常范围内的样本将多于正常范围内的样本。因此,与较小的p值相比,更有可能找到较大的p值。


3
-1。这是完全错误的。我不知道是谁赞成这一点。H0点下的P值均匀分布。
变形虫

1
-1。这甚至没有足够的道理可以被称为错误:“正态范围”是没有意义的,而p值本质上与正态分布无关。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.