卡明(2008)声称,复制过程中获得的p值的分布仅取决于原始p值。怎么可能是真的?


52

我一直在阅读杰夫·卡明(Geoff Cumming)在2008年发表的论文《复制和区间:值只是模糊地预测未来,但置信区间的确好得多》pp (《 Google学术搜索》中的〜200篇引文),并且被其核心观点之一所迷惑。这是卡明(Cumming)反对并主张置信区间的一系列论文之一。但是,我的问题与这场辩论无关,仅涉及关于一项具体主张。pp

让我引用摘要:

本文显示,如果初始实验的结果是两尾,则复制中 的单尾值有机会落在区间,的机会,,充分一个的机会。值得注意的是,该间隔(称为间隔)是如此之大,无论样本大小如何。p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

卡明(Cumming)声称,此“区间”以及实际上在复制原始实验(具有相同的固定样本大小)时将获得的的整个分布取决于原始值和不依赖于真实效果尺寸,功率,样本大小,或其他任何东西:ppppobt

可以推导的概率分布,而无需知道或假设(或幂)的值。[...]我们不假设任何有关先验知识,而仅使用信息 [观察到的组间差异]给出了作为给定的计算基础和间隔的分布的 。pδδMdiffδpobtpp

卡明2008

我对此感到困惑,因为在我看来,的分布很大程度上取决于幂,而原始本身并没有提供任何有关幂的信息。实际效果大小可能是,然后分布是均匀的;或真实效果的大小可能很大,那么我们应该期望大多数很小。当然,可以先假设一些可能的效果大小并对其进行积分,但是卡明似乎声称这不是他正在做的事情。ppobtδ=0p

问题:这到底是怎么回事?


请注意,此主题与以下问题有关:重复实验的哪个部分在第一个实验的95%置信区间内将具有影响大小?@whuber提供了一个很好的答案。卡明(Canmming)对此主题发表了一篇论文,内容为:卡明(Cumming)和Maillardet,2006年,置信区间和复制:下一个均值将落在哪里?-但是这一点很明确,没有问题。

我还注意到,卡明的主张在2015年《自然方法》论文中被重复了好几次。善变的值会产生P某些人可能遇到的不可再现的结果(在Google学术搜索中已被引用约100次):

重复实验的值将有很大变化。实际上,很少重复进行实验。我们不知道下一个可能有多大差异。但它可能会大不相同。例如,不管实验的统计能力如何,如果单次重复实验的值为,则重复实验返回值在到之间的可能性为(变化为(原文如此,会更大)。PPP0.0580%P00.4420%P

(请注意,顺便说一下,怎么样,不管卡明的说法是否正确,自然的方法报导援引它不准确:根据卡明,它只有以上的概率。是的,纸张也说:“20%CHAN g e“。Pfff。)10%0.44


8
这样的主张不是必须以假定的自然状态为条件的吗?默认情况下,这不是原假设吗?对于简单的零假设和连续分布的统计量,p值具有均匀分布。一切都源于这一事实。
ub

4
@whuber好吧,我在此处复制的图5所示的分布显然不统一。我同意,尽管看起来任何这种分布都必须以自然状态为条件,但是卡明似乎提出了相反的要求。因此,我的问题是:本文到底发生了什么?我误解了吗?纸张是完全错误的吗?我们能找出一些隐藏的假设吗?等等
变形虫说莫妮卡

请注意:arxiv.org/abs/1609.01664显然相关,但快速浏览并不能解决我的困惑。
变形虫说莫妮卡(Monica)恢复

1
我希望本周不参加决赛,否则我会花一些时间。如果两个样本大小相同,则随后的p值应取决于功效是没有意义的。观察到的p值应仅取决于参数的真实值和您选择的null。估计的有用性取决于功率,但这在这里不是问题。
戴夫·哈里斯

3
我不在这里...但是略读本文,似乎所有内容都是在测试两个具有相同已知方差和样本大小且零值为零的高斯总体的均值的显着差异的情况下。 这个对吗?(即其中为零。或者该论文的适用范围更广,因为这里的问题/意见似乎表明?z=Δx¯σN2Nz,1z=ΔμσN2=0
GeoMatt22 2016年

Answers:


21

摘要:技巧似乎是一种贝叶斯方法,该方法假设隐藏参数(本文附录B中的,此处为)先于统一(Jeffreys)。zμθ

我相信可能会有贝叶斯风格的方法来获得本文附录B中给出的方程式。

据我了解,实验可归结为统计。采样分布的均值是未知的,但在零假设下消失。zNθ,1θθH0=0

将实验观察到的统计信息称为。然后,如果我们假设上的“均匀”(不正确)先验,贝叶斯后验就是。如果然后通过边际化更新原始采样分布,则后验变为。(方差翻倍是由于高斯的卷积。)z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2

至少从数学上来说,这似乎可行。并且它解释了因子如何从公式B2到公式B3“神奇地”出现。12


讨论区

如何将这个结果与标准零假设测试框架相一致?一种可能的解释如下。

在标准框架中,零假设在某种意义上是“默认”(例如,我们所说的“拒绝零”)。在上述贝叶斯上下文中,这将是不均匀的优先级,它更倾向于。如果我们将其设为,则方差表示我们之前的不确定性。θ=0θN0,λ2λ2

通过上面的分析,进行了此先验,我们发现 从中我们可以看到在极限我们恢复了上面的分析。但是在的极限中,我们的“后验”变为null,和,因此我们恢复了标准结果。

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1

(对于重复研究,以上内容在这里提出了一个有趣的问题,关于贝叶斯更新与“传统”方法进行荟萃分析的含义。尽管如此,我对荟萃分析的主题一无所知!)


附录

根据评论中的要求,这是一个比较图。这是本文中公式的相对直接的应用。但是,我将这些内容写出来,以确保没有歧义。

令表示统计的单侧p值,并通过表示其(后验)CDF。。然后,附录中的方程B3等于 ,其中是标准的普通CDF。相应的密度为 ,其中是标准的普通PDF,如CDF公式。最后,如果我们用表示观察到的pzF[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^两边的 p值对应于,则我们有 z^
z^=Φ1[1p^2]

使用这些方程式可得出下图,该图与问题中引用的论文的图5相当。 卡明(2008)的“复制”图5通过发布的公式。

(这是由以下Matlab代码产生的;请在此处运行。)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

1
我希望通过公开基本假设(例如,隐藏参数的统一先验),现在讨论可以集中在我认为是您的目标的科学/统计问题上!(而不是我在上面回答的数学/概率问题。)
GeoMatt22 '16

我发现了有关该主题的一些古老但不太古老的讨论:Goodman 1992年Senn 2002年对Goodman的评论以及最近的Lazzeroni等人2014年。最后一个似乎没有帮助(但出于完整性考虑,我还是提到了它),但是前两个,特别是Senn的评论,显得非常相关。
变形虫说莫妮卡(Monica)恢复

变形虫感谢您挖掘这些参考文献,它们看起来很有趣!为了完整起见,我添加了一个“讨论”部分,试图将卡明结果与标准框架联系起来。
GeoMatt22 '16

更新:我阅读了上面链接的古德曼(Goodman)和森(Senn)的论文,现在发表了自己的答案以总结我的直觉。(顺便说一句,我很高兴接受您的回答并给予赏金。再次感谢。)
阿米巴说Reinstate Monica

27

感谢所有有趣的讨论!在撰写2008年那篇文章时,我花了一段时间让自己确信复制p的分布(研究的精确复制给出的p值,意味着研究完全相同,但有一个新样本)取决于仅在原始研究给出的p上。(在本文中,我假设总体为正态分布并随机抽样,并且我们的研究旨在估算总体的均值。)因此,无论N为何,p间隔(复制p的80%预测间隔)都是相同的。功效或原始研究的真实效果大小。

当然,这首先令人难以置信。但是,请注意,这里我原来的陈述是基于了解p从最初的研究。这样想吧。假设您告诉我您的原始研究发现p = .05。您没有告诉我有关这项研究的其他信息。我知道您样本均值的95%CI恰好延伸到零(假设p是针对零的零假设计算得出的)。因此,您的样本均值是MoE(95%CI的一只手臂的长度),因为它是从零开始的距离。来自像您这样的研究的均值样本分布具有标准偏差MoE / 1.96。这是标准错误。

考虑精确复制给出的平均值。该复制平均值的分布具有均值MoE,即该分布集中在原始样本均值上。考虑样本均值和复制均值之间的差异。它的方差等于像您的原始研究和重复研究之类的研究均值的方差之和。这是您原始研究的研究方差的两倍,即2 x SE ^ 2。这是2 x(MoE / 1.96)^ 2。因此,该差异的SD为SQRT(2)x MoE / 1.96。

因此,我们知道复制均值的分布:其均值为MoE,其SD为SQRT(2)x MoE / 1.96。当然,水平标度是任意的,但是我们只需要从您的原始研究中就CI知道这种分布。运行复制时,大多数均值(大约83%)将落入原始95%置信区间内,而大约8%的均值将落入该均值以下(即,如果您的原始均值> 0,则将其降至零以下),并且比该平均​​值高8%。 CI。如果我们知道复制均值相对于原始CI的位置,则可以计算其p值。我们知道这种复制方式的分布(相对于您的CI),因此我们可以找出复制p的分布值。我们对复制所做的唯一假设是,复制是精确的,即与原始研究来自相同的种群,且具有相同的效应大小,并且N(和实验设计)与研究中的相同。

以上只是文章中论点的重申,没有图片。

仍然非正式地,考虑原始研究中的p = .05 可能会有所帮助。这可能意味着您有一个很小的效应量的巨大研究,或者一个巨大的效应量的微小研究。无论哪种方式,如果您重复该研究(相同的N,相同的总体),那么您无疑会获得略有不同的样本均值。事实证明,就p值而言,无论您进行的是大型研究还是小型研究,“有些不同”都是相同的。因此,仅告诉我您的p值,我将告诉您您的p间隔。

杰夫


8
非常感谢您在此网站上注册以回答我的问题!我非常感激。我仍然不确定,但是我将花一些时间来思考您的答案。我目前的感觉是您提出了一个正确的观点,但是我对您如何表述持不同意见。一个简单的反对意见:p = 0.05与H0为真一致。如果H0为true,则p将在1%的时间内处于0.04-0.05范围内。在这种情况下,复制p值的分布从0到1是均匀的。但是,在所有情况下,您都可以预测初始p = 0.05的分布是不同的。应该怎么想呢?
变形虫说恢复莫妮卡

7
该论点中的一个隐含假设看起来站不住脚:即“精确复制”的均值等于教育部。如果“精确复制”是指以相同的自然状态重复实验则测试统计量的分布是未知的:它取决于自然状态。除了采用贝叶斯观点(这意味着您需要明确声明先验条件)外,取得进展的唯一方法是在执行原始或复制之前计算概率而不是以复制为条件。
ub

2
@ user43849我谨此表示,这样的人不了解什么是p值。P值对未来的实验几乎没有说什么。这里有一个经常使用的预测间隔概念,直接在这里适用:复制问题只是涉及单个未来实验的p值的预测间隔。答案是建立在经典统计理论基础上的,不需要创新的概念,并且(肯定)在精神上不是贝叶斯主义。
whuber

2
@whuber深入研究该论文,我相信该练习可能存在一个隐含的贝叶斯假设(请参阅我的回答)。
GeoMatt22

1
@GeoMatt是的,这似乎是证明计算合理的唯一方法。
whuber

10

@ GeoMatt22澄清了这个问题,我很高兴看到@GeoffCumming来到这里参加讨论。我将这个答案发布为进一步的评论。


事实证明,这种讨论至少可以追溯到Goodman(1992)对复制,P值和证据的评论,以及后来的Senn(2002)写给编辑的信。我强烈建议您阅读这两篇简短的文章,尤其是斯蒂芬·森的文章;我发现自己完全同意Senn。

如果我在问这个问题之前已经读过这些论文,那么我很可能从未发表过。古德曼(与卡明不同)非常清楚地指出,他认为贝叶斯先验条件是平坦的。他没有像Cumming那样呈现值分布,而是报告了在复制实验中观察到“显着”概率:pp<0.05

古德曼1992

他的主要观点是,这些概率非常低(即使也仅为)。特别地,对于它仅为。(对于任何和后一个概率保持不变。)p=0.0010.78p=0.050.51/2αp=α

森恩的回答的重点是,这是一个有用的观察,然而,它不会以任何方式破坏,并且与古德曼相反,这并不意味着 “夸大了反对零值的证据”。他写:pp

我也认为他的[古德曼的]示范很有用,有两个原因。首先,它警告所有计划进行与刚刚完成的研究相似的研究(且其结果略微重要)的人第二研究可能不匹配。第二,它警告说,个别研究结果明显不一致可能是普遍的,并且不应对这种现象反应过度。

Senn的提醒我们,片面 -值可以被理解为贝叶斯后验概率对于下平面之前(不当之前对整个实线)[见Marsman&Wagenmakers 2016为一个简短的讨论这个事实和一些引用]pH0:μ<0μ

如果是,则已经获得任何特定的在一个实验-值,概率下一步实验将产生较低的 -值具有为 ; 否则,将来的复制可能会在进行之前以某种方式提供其他证据。因此,完全有意义的是,对于古德曼获得的概率。实际上,由Cumming和@ GeoMatt22计算的所有复制分布在各自的具有中值。p p1/2p=0.050.5pobs

但是,我们并不需要该复制概率高于才能相信该治疗的有效性是可能的。一系列长期试验(其中%在%水平上具有显着意义)将令人信服地证明该疗法有效。0.5505

顺便说一句,对于给定大小和功效的t检验(例如参见此处查看的预测分布的任何人,都不会感到惊讶,因为要求的中位数必然会使该分布相当宽泛,一条肥的尾巴朝向。有鉴于此,卡明报告的宽广的时间间隔令人惊讶。pp=0.051

他们宁可建议,是试图复制实验时,应使用较大的样本量; 实际上,这是复制研究的标准建议(例如,根据经验,Uri Simonsohn 建议将样本大小增加倍)。2.5


5
(+1)幸运的是,直到您做到了,您才在Goodman或Senn上发生过。:-)
主教

6

感谢大家的进一步有趣的讨论。我将不做一点点评论,而是提供一些一般性的思考。

贝叶斯 我完全反对贝叶斯方法。从一开始,我就期望贝叶斯分析(假设先验是平坦的或分散的)会给出相同或非常相似的预测间隔。p上有一个段落。在2008年的文章中,有291位评论者,部分是由其中一位审稿人提示的。因此,我很高兴在上面看到该方法的解决方案。很好,但是与我采用的方法截然不同。

顺便说一句,我选择致力于置信区间(新的统计数据:效应量,置信区间,荟萃分析),而不是贝叶斯的估计方法(基于可信区间),因为我不知道如何解释贝叶斯对初学者的方法足够好。我还没有看过任何真正的入门贝叶斯教科书,我觉得可以与初学者一起使用,或者有可能被大量研究人员所使用并令人信服。因此,如果我们想有一个不错的机会来改善研究人员进行统计推断的方式,就需要寻找其他地方。是的,我们需要超越p值,并从二元决策转变为估算,贝叶斯可以做到这一点。但是,常规的CI方法更可能实现实际更改。这就是为什么我们最近发行的介绍性统计教科书采用了新的统计方法。见www.thenewstatistics.com

回到思考。我的分析重点是仅了解一次研究的p值。陈述了我所做的假设(正常总体,随机抽样,已知总体SD,因此我们在推断总体均值,精确复制时可以使用z而不是t计算)。但这就是我所假设的。我的问题是“ 从最初的实验中得出p,我们能走多远?” 我的结论是,我们可以从复制实验中找到预期的p分布。从该分布中,我们可以得出p个间隔或任何感兴趣的概率,例如复制将给出p的概率。<.05,或其他任何感兴趣的值。

本文的图A2说明了争论的核心,也许是值得最深思的步骤。下半部分可能没有问题。如果我们知道mu(通常假设它等于初始研究的平均值即可实现),则用粗线段表示的估计误差具有已知分布(如标题中所述,正态,均值mu,SD)。

接下来的重要步骤:考虑图2A的上半部分。我们没有关于亩的信息。没有信息-没有关于先验的任何隐含假设。但是,我们可以说明这些粗线段的分布:正态,均值零,SD = SQRT(2)乘以下半部分的SD。这给了我们找到复制p分布所需的条件。

所得的p间隔非常长-至少当我与研究人员普遍使用的p值比较时,我感到惊讶。研究人员通常会迷恋p值的第二个或第三个小数位,而不会意识到他们所看到的值很容易确实有很大的不同。因此,我对pp 293-4的评论是关于报告p间隔以确认p的模糊性。

长,是的,但这并不意味着初始实验中的p毫无意义。在非常低的初始p之后,平均而言,复制趋向于具有较小的p值。较高的初始p和复制将倾向于具有较大的p值。请参见第1页的表1。292,例如,比较右列中初始p = .001和.1 的p个间隔,这两个结果通常被视为相距数英里。两个p间隔肯定不同,但是两者之间存在巨大的重叠。复制.001实验可以很容易地给出p大于.1实验的复制品。尽管很可能不会。

作为其博士研究的一部分,Jerry Lai报告了(Lai等,2011)几项不错的研究,发现来自许多学科的已发表研究人员的主观p区间太短了。换句话说,研究人员往往会低估复制的p值可能有多大差异。

我的结论是,我们根本不应该使用p值。报告并讨论95%CI,该CI传达了数据中的所有信息,这些信息告诉我们有关我们正在调查的人口平均数的信息。在给定CI的情况下,p值不添加任何内容,并且可能会错误地暗示一定程度的确定性(“显着!不重要!效果存在!不存在!”)。当然,CI和p值基于相同的理论,我们可以从一种转换为另一种(在介绍性教科书的第6章中有很多论述)。但是CI比p提供更多的信息。最重要的是,它使不确定性的程度变得明显。鉴于我们人类倾向于把握确定性的倾向,因此考虑CI的范围至关重要。

我也试图突出的变化p值在“的舞蹈p视频价值观”。Google的“ p值舞蹈”。至少有几个版本。

愿您所有的置信区间都短!

杰夫


3
感谢您的这些补充评论,Geoff。我在这里同意某些观点(例如,在“确定性”上),而在另一些观点(例如,“给出CI,p值不添加任何内容”)上则不同意,但是我特别需要一件事:我不重复认为没有贝叶斯先验就可以进行任何分析。图A2上显示的参数需要一个先验的平坦数作为隐藏假设。一个人可以承担其他先验,并得出截然不同的结果。我认为没有任何纯粹的频率论者论据可以支持您的结论。请参阅上面的@whuber评论。
变形虫说恢复莫妮卡

@Geoff Cumming-非常感谢您对统计教育和结果解释的评论。
rolando2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.