最近,我发现在Klammer等人的论文中。p值应均匀分布的声明。我相信作者,但不明白为什么会这样。
Klammer,AA,Park,CY和Stafford Noble,W.(2009)SEQUEST XCorr函数的统计校准。蛋白质组研究杂志。8(4):2106-2113。
最近,我发现在Klammer等人的论文中。p值应均匀分布的声明。我相信作者,但不明白为什么会这样。
Klammer,AA,Park,CY和Stafford Noble,W.(2009)SEQUEST XCorr函数的统计校准。蛋白质组研究杂志。8(4):2106-2113。
Answers:
澄清一下。当零假设为真且满足所有其他假设时,p值均匀分布。这样做的原因实际上是将alpha定义为I型错误的概率。我们希望拒绝一个真实的零假设的概率为alpha,当观察到的时,我们拒绝。对于任何alpha值,这种情况发生的唯一方法是p值来自于一个均值分配。使用正确分布(正态,t,f,chisq等)的全部目的是将检验统计量转换为统一的p值。如果原假设为假,则p值的分布(希望)将更趋于0。
R 的TeachingDemos软件包中的Pvalue.norm.sim
和Pvalue.binom.sim
函数将模拟几个数据集,计算p值并将其绘制以证明这一思想。
另请参阅:
默多克(D.Murdoch),蔡(Y.)蔡(Y)和阿德科克(Adcock)(2008)。P值是随机变量。美国统计学家,62,242-245。
有关更多详细信息。
由于人们仍在阅读此答案并发表评论,因此我认为我将解决@whuber的评论。
的确,当使用诸如类的复合零假设时,p值仅在2个均值完全相等时才是均匀分布的,并且如果是小于。使用该函数并将其设置为进行单面测试并通过模拟进行仿真可以很容易地看出这一点,并且假设的方法有所不同(但在使null为真的方向上)。μ 1 μ 2Pvalue.norm.sim
就统计理论而言,这无关紧要。考虑一下我是否声称自己比家人中的每个成员都高,一种检验此说法的方法是将我的身高与您家人中每个成员的身高进行一次比较。另一种选择是找到家庭中最高的成员,并将其身高与我的高度进行比较。如果我比那个人高,那么我也比其他人高,我的主张是正确的;如果我不比那个人高,那么我的主张是错误的。测试复合null可以看作是一个相似的过程,而不是测试所有可能的组合,其中我们只能测试相等部分,因为如果我们可以拒绝支持μ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1个μ 2个 α那么我们知道我们也可以拒绝所有可能性。如果我们在情况下查看p值的分布,则分布将不是完全均匀的,而是会有更多的值更接近于1而不是接近于0,这意味着类型I错误的概率将小于所选的值使其成为保守测试。当接近,均匀分布成为极限分布(在统计理论上比较新潮的人可能会以分配的最高水平或类似的观点更好地陈述这一点)。因此,通过构造假设零位相等部分的测试(即使是空值是复合的),则我们将测试设计为对于任何条件为零的I型错误的概率至多为。
\leq
在TeX中阅读)!
在原假设下,您的检验统计量具有分布(例如,标准正态)。我们证明p值具有概率分布 换句话说,是均匀分布的。只要是可逆的,它就成立,其必要条件是不是离散的随机变量。P F (⋅ )
该结果是一般的:随机变量的可逆CDF的分布在上是均匀的。
令表示对于所有具有累积分布函数的随机变量。假设是可逆的,我们可以得出随机p值,如下所示:
从中我们可以得出结论,在上的分布是均匀的。[ 0 ,1 ]
这个答案类似于查理的答案,但是避免了定义。
在两个自变量之间进行线性回归的情况下,简单模拟p值的分布:
# estimated model is: y = a0 + a1*x + e
obs<-100 # obs in each single regression
Nloops<-1000 # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments
for(i in seq_along(output)){
x<-rnorm(obs)
y<-rnorm(obs)
# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1
if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed
}
plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform
我认为这些答案中的大多数实际上并不能笼统地回答这个问题。它们只限于存在简单零假设且检验统计量具有可逆CDF的情况下(如CDF严格增加的连续随机变量)。这些情况是大多数人倾向于通过z检验和t检验关注的情况,尽管对于检验二项式均值(例如),没有CDF。对于这些受限制的情况,上面提供的内容在我看来似乎是正确的。
如果零假设是复合的,那么事情就更复杂了。雷曼和罗曼诺(Lehmann and Romano)的“测试统计假设”(第63-64页)提供了我在综合案例下使用有关拒绝区域的一些假设所见到的最普遍的事实证明。我将尝试重现下面的论点...
我们测试零假设与备择假设基于测试统计,我们将表示为随机变量。假定检验统计量来自某个参数类,即,其中是概率分布族的一个元素,而是参数空间。零假设和替代假设在其中
形成的分区
测试结果可以表示为
,其中对于任何集合我们定义
这里是我们的显着性水平,表示测试对显着性水平的拒绝区域。
如果则拒绝区域满足
。在嵌套拒绝区域的情况下,不仅确定是否以给定的显着性水平拒绝原假设,而且确定可以拒绝原假设的最小显着性水平,这是有用的。这个水平称为p值,
这个数字使我们对数据的强度(如检验统计量)与原假设相矛盾。
假设表示而。此外,假设拒绝区域遵守上述嵌套属性。然后,以下内容成立:
如果对于所有,则对于,
如果对于对于所有,我们都有,那么对于我们具有
注意,这第一属性只是告诉我们,假阳性率是在控制通过拒绝当p值小于,并且所述第二属性告诉我们(给予额外的假设),该p-值空下均匀地分布假设。
证明如下:
设 ,并假设对于所有。然后根据的定义,我们对所有具有。通过单调性和假设,可以得出所有。令,则遵循。
令,并假设对于所有,。然后,通过单调性,得出。考虑(1),得出。
注意,即使检验假设是简单的而不是合成的,当检验统计量是离散的时,(2)中的假设也不成立。以其中和。即,将硬币掷十次,并测试它是否公平或偏向正面(编码为1)。在10次公平硬币掷骰中看到10个正面的概率为(1/2)^ 10 = 1/1024。在10次公平的硬币掷骰中看到9或10个正面的概率为11/1024。对于严格位于1/1024和11/1024之间的,如果,则您将拒绝null ,但是对于那些值,我们没有何时。代替这种。