合并p值时,为什么不平均呢?


44

我最近了解了费舍尔组合p值的方法。这是基于该空下p值遵循均匀分布,并且该事实 ,我认为是天才。但是我的问题是为什么要走这种令人费解的方式?为什么不使用p值的均值并使用中心极限定理(这有什么问题)?或中位数?我试图了解RA费舍尔这个宏伟计划背后的天才。

2i=1nlogXiχ2(2n), given XUnif(0,1)

24
归结为基本的概率公理:p值是概率,独立实验结果的概率不相加,而是相乘。 在涉及乘法的情况下,对数将乘积简化为总和:来自此。(那么,它具有卡方分布是不可避免的数学结果。)远非“费解”,这可能是最简单,最自然(合法)的过程。log(Xi)
whuber

5
假设我有2个来自同一人群的独立样本(假设我们有一个样本t检验)。想象一下,样本平均值和标准偏差几乎相同。因此,第一个样本的p值为0.0666,第二个样本的p值为0.0668。整体p值应该是多少?好吧,应该是0.0667吗?实际上,很明显它必须更小。在这种情况下,“正确”的做法是合并样本(如果有的话)。我们的均值和标准差大致相同,但样本量是两倍。性病 均值误差较小,并且p值必须较小。
Glen_b 2013年

3
当然,还有其他方法可以组合p值,尽管乘积是最自然的方法。例如,可以添加p值。在联合null下,它们的总和应具有三角形分布。或者可以将p值转换为z值并相加(如果您将正常人口中相似大小的样本的结果合并得不太小,这很有意义)。但是,产品是显而易见的前进方式。每次都是合乎逻辑的。
Glen_b 2013年

1
请注意,费舍尔的方法是基于乘积的,这就是我所描述的自然值-因为您将独立概率相乘以找到它们的联合概率。考虑到GM与产品并没有真正的不同,则需要另外一个步骤来确定对应的组合p值是什么,因为通过获取产品算出GM()后,您需要查看2 n log g = 2 log g n获得组合的p值。也就是说,您需要先将GM转换回产品,然后再获取日志以找到组合的p值。g2nlogg=2log(gn)
Glen_b

1
我要求每个人都阅读邓肯·默多克(Duncan Murdoch)在《美国统计学家》中的“ P值是随机变量”一文。我可以在以下位置在线找到副本:hypergeometric.files.wordpress.com/2013/09/…–
DWin

Answers:


35

您可以完美地使用均值值。p

Fisher的方法集设置一个阈- 2 Σ Ñ = 1个日志p ,例如,如果零假设ħ 0:所有p -值是ù 0 1 成立,则- 2 Σ 登录p 超过小号α的概率α。发生这种情况时,H 0被拒绝。sα2i=1nlogpiH0pU(0,1)2ilogpisααH0

一般一个取š α通过的分位数给出χ 22 Ñ 。等价地,可以在产品的工作Π p 是低于ë - 小号α / 2的概率α。这里,对于Ñ = 2,示出了拒绝区(红色)的曲线图(这里我们使用小号α = 9.49。该拒绝区域具有面积= 0.05。α=0.05sαχ2(2n)ipiesα/2αn=2sα=9.49

费舍尔

现在您可以选择处理1ni=1npiipitαpitααtαnn=2tα=(2α)12

p值之和

可以想象,对于拒绝区域,可能有许多其他形状,并且已经提出。先验清楚哪个更好,即哪个具有更大的能力,这不是先验的。

p1p2z

> p1 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )
> p2 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )

让我们用红色标记散点图被拒绝的散点图。

散点图

Fisher乘积法的功效约为

> sum(p1*p2<exp(-9.49/2))/1e4
[1] 0.2245

p

> sum(p1+p2<sqrt(0.1))/1e4
[1] 0.1963

因此,至少在这种情况下,费舍尔的方法是成功的。


2
n=2tα=2αn=3n>30.5nn/12

1
p

26

p

p

仍然可以将它们加起来。实际上,这正是Edgington(1972)提出的,它是一种将来自独立实验的概率值进行组合的可加方法(在有效壁下),有时也称为Edgington方法。1972年的论文得出结论认为

事实证明,加法比乘法法更有效,比乘法法更有可能在实际有治疗效果时产生显着结果。

但是鉴于该方法仍然相对未知,我怀疑这至少是一个过分简化的过程。例如,最近的一次综述Cousins(2008)关于有意义或p值的一些论文的带注释的参考书目根本没有提到Edgington的方法,而且似乎在CrossValidated上也从未提及过该术语。

pz2z

因此,有关为什么根本使用任何“复杂”方法的一般问题的答案是,人们可以获取权力。

Zaykin等人(2002)结合p值的截断乘积法进行了一些模拟,并在比较中包括了Edgington的方法,但我不确定结论。

n=2

组合p值

说了这么多,我认为仍然存在一个问题,为什么埃丁顿的方法为什么(通常是?)次优,因为它晦涩难懂。

n=2p1=0.4p2α=0.05p2=0.00000001

pp=0.001p=0.00000001


p

p

S=p1++pk,
SSp 但是,几乎没有对此程序进行数值研究。

1
谢谢,@ Glen_b!我很高兴此线程获得了一些其他应有的可见性。顺便说一句,直到我开始研究这个答案之前,我才知道该过程被称为“埃奇顿顿方法”。
变形虫说莫妮卡(

9

因此,如果您进行了三项相似大小的研究,并且在所有三种情况下均得出p值为0.05,那么您的直觉是“真实值”应为0.05?我的直觉是不同的。多个相似的结果似乎会使显着性更高(因此,作为概率的p值应更低)。P值并不是真正的概率。它们是关于在特定假设下观察值的样本分布的陈述。我认为,它可能支持这样一种观念,即人们可以这样滥用它们。我很遗憾地提出这一主张。

无论如何,在没有差异的零假设下,获得多个极端p值的可能性似乎要小得多。每次我看到在零假设下p值从0-1均匀分布的陈述时,我都感到不得不用模拟对其进行检验,到目前为止,该陈述似乎成立了。尽管我的大脑神经网络至少有一部分是必需的,但我显然没有对数尺度上的自觉思考。

如果您想量化这种直觉,则您提供的公式(稍作修改)将显示在Wikipedia页面上:http : //en.wikipedia.org/wiki/Fisher%27s_method,并且相关的图形使您可以直观地和半量化。定量获得两个小p值对总体重要性的影响。例如,从颜色编码的图形中读取,两个同时的p值0.05将产生约0.02的合成p值。您还可以调查将样本量加倍对t统计量的影响。样本数量以1 / sqrt(n-1)的形式进入样本t统计量,因此您可以查看该因数从50变为100的影响。(在R中:)

 plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
 abline(h=1/sqrt(c(50,100)))

这两种方法产生不同的定量结果,因为50和100的1 / sqrt(n)值之比与0.05到0.02的比值不同。两种方法都支持我的直觉,但程度不同。也许其他人可以解决此差异。然而,第三种方法是考虑当每次抽签的二项式概率为0.05时,获得两次随机抽签“ True”的概率。(一个非常不公平的骰子)该联合事件的概率应为.05 * .05 = .002,该结果可以在Fisher估算的“另一侧”考虑。我刚刚进行了50,000个同时t.test的模拟。如果绘制结果,则它看起来非常像宇宙背景辐射场的图。大多是随机的。

 t1 <- replicate(50000, t.test(rnorm(50))$p.value )
     t2 <- replicate(50000, t.test(rnorm(50))$p.value )
 table(t1 < 0.05, t2 < 0.05)
 plot(t1, t2, cex=0.1)
#        FALSE  TRUE
#  FALSE 45099  2411
#  TRUE   2380   110
 110/(50000-110)
#[1] 0.002204851

谢谢您的回答。您提到的直觉实际上是有道理的。我认为您提到的那些情况更为重要。但是,有没有一种方法可以更精确地用数学表达这个想法?
Alby

palpha

我看到了。不服气。
DWin

1
p1=0.05p2=0.05

平均方法“强调”或加权复合假设,即两个单独的假设被一起拒绝。这似乎是一个不言而喻的约束。
DWin
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.