有一个很好的,令人信服的示例,其中p值很有用?


64

标题中的问题是不言而喻的,但我想提供一些背景信息。

ASA在本周早些时候发布了“ 关于p值:上下文,过程和目标 ”的声明,概述了对p值的各种常见误解,并敦促在没有上下文和思想的情况下不要使用它(可以这样说)。任何统计方法,真的)。

为了回应ASA,马特洛夫(Matloff)教授写了一篇博客文章:150年后,ASA对p值表示否。然后,本杰米尼(Benjamini)教授(和我)写了一篇题为“ 这不是p值的过错 –对最近ASA声明的反思的回复。作为回应,马特洛夫教授在后续帖子中问

我想看到的是一个很好的,令人信服的示例,其中p值很有用。那确实是底线。

引用他的两个主要论点反对的用处 -值:p

  1. 对于大样本,显着性检验是针对原假设的微小,不重要的偏离而发动的。

  2. 在现实世界中,几乎没有零假设是真实的,因此对它们进行显着性检验是荒谬而离奇的。

我对其他经过交叉验证的社区成员对这个问题/论点的看法以及对它的良好回应感到非常感兴趣。



2
谢谢蒂姆。我怀疑我的问题足够不同,以至于它应该拥有自己的线程(尤其是因为您提到的两个问题都没有回答)。尽管如此,链接仍然非常有趣!
Tal Galili

3
它值得而且很有趣(因此我的+1),我只提供了这些链接:)
蒂姆

3
我必须说,我(尚未)阅读Matloff在该主题上写的内容,但是为了使您的问题独立存在,您能否简要概述一下为什么他发现p值用法的任何标准示例而不是“好/令人信服”?例如,有人想研究某种实验操作是否会朝特定方向改变动物行为;因此对实验组和对照组进行了测量和比较。作为此类论文的读者,我很高兴看到p值(即,p值对我有用),因为如果p值很大,那么我就无需关注。这个例子还不够吗?
变形虫

1
@amoeba-他在此处列出了它们:matloff.wordpress.com/2016/03/07/… -----引用他的论点:1)具有大量样本,显着性检验突兀地偏离了原假设的微小,不重要的变化。2)在现实世界中,几乎没有零假设是真实的,因此对它们进行显着性检验是荒谬和离奇的。-----我对此有自己的看法(我想稍后对之进行正式化),但是我确信其他人将拥有有见地的答案。
Tal Galili

Answers:


44

我将考虑Matloff的两点:

  1. 对于大样本,显着性检验是针对原假设的微小,不重要的偏离而发动的。

    这里的逻辑是,如果有人报告非常重要,那么仅凭这个数字我们就不能说影响是大的还是重要的,或者是无关紧要的(大会发生)。我发现这个论点很奇怪,根本无法与之联系,因为我从未见过一项研究会报告值而不报告[效应效应大小]。我读过的研究会(例如,通常在图中显示)A组具有这样的均值,B组具有这样的均值,并且在值中均存在显着差异。我显然可以为自己判断A和B之间的差异是大还是小。n p pp=0.0001npp

    (在评论,@RobinEkman向我指出的Ziliak&麦克洛斯基(几个高度引用的研究1996年2004年),谁发现,大多数的经济学论文小号的一些影响“统计学意义”不十分重视效果的程度,它的“实用意义”(Z&MS认为通常可以忽略不计。)这显然是一种不好的做法。但是,正如下面@MatteoS所解释的,总是报告影响大小(回归估计),因此我的观点成立。)

  2. 在现实世界中,几乎没有零假设是真实的,因此对它们进行显着性检验是荒谬而离奇的。

    人们通常也表达了这种担忧,但是我在这里再次无法真正与之联系。要认识到研究人员不增加他们的这一点很重要循环往复。在我熟悉的神经科学领域,人们将用或大鼠进行实验。如果没有效果可以看到,那么结论就是效果不够大,不足以引起人们的兴趣。我认识的人会去育种,培训记录,并牺牲只表明有一些统计学显著,但微小的影响。而且,虽然几乎没有实际效果可能确实是零,这事实n = 20 n = 50 n = 5000n n=20n=50n=5000 可以肯定的是,许多实际影响很小,足以用合理的研究人员实际使用的合理样本量进行检测,并能做出正确的判断。

    (存在一个令人担忧的问题,即样本量通常不够大,很多研究的能力不足。因此,也许许多领域的研究人员都应该针对而不是不过,无论样本量是多少,从而限制了研究可以检测到的效果大小。)n = 20n=100n=20

    此外,我不认为几乎没有无效假设是正确的,至少在实验性随机研究中(相对于观察性假设)并非如此。两个原因:

    • 通常,正在测试的预测具有方向性。研究人员旨在证明某些效应为正。按照惯例,这通常是通过假设点为空的双向测试完成的,但实际上,这是试图拒绝的单面测试。(@ CliffAB的回答,+ 1,使得相关点),这可以肯定是真实的。H 0δ = 0 H 0δ < 0δ>0H0:δ=0H0:δ<0

    • 即使谈论点“无” null,我也看不出为什么它们永远都不成立。有些事情与其他事情没有因果关系。看看最近几年未能复制的心理学研究:人们对未来的感觉;妇女排卵时穿着红色;用影响步行速度的与老年人相关的单词启动;等这很可能是不存在的因果关系在这里都等真实效果恰好为零。H0:δ=0

他本人,诺特·马特洛夫(Norm Matloff)建议使用置信区间代替因为它们显示了效应大小。置信区间很好,但是与值相比,置信区间的一个缺点是:报告了一个特定覆盖率值(例如置信区间。看到置信区间并不能告诉我置信区间有多宽。但是一个值可以与任何进行比较,不同的读者可能会想到不同的alpha。ppp95 99 p α95%95%99%pα

换句话说,我认为对于喜欢使用置信区间的人来说,值是有用且有意义的附加统计信息。p


我想从我最喜欢的博主斯科特·亚历山大(Scott Alexander)处长谈的实用性。他不是统计学家(他是心理医生),但是在阅读心理学/医学文献以及审查其中的统计数据方面具有丰富的经验。引用来自强烈推荐的关于假巧克力研究的博客文章。强调我的。p

[...]但是,假设我们不允许做。我所要做的就是告诉您:“是的,有15个人进行的一项研究发现,巧克力有助于抵抗胰岛素的作用”,您的笑容就在我的脸上。效果大小应该有助于解决这一问题。但是,假设我对您说:“有十五个人进行的一项研究发现,巧克力有助于胰岛素抵抗。效应量为。” 我完全没有直觉,这是否与随机噪声一致。你呢?好的,那么他们说我们应该报告置信区间。效果大小是,用的置信区间0.6 0.6 95 [ 0.2 1.0 ] p 95 p 0.05p0.60.695%[0.2,1.0]。好的。因此,我检查了置信区间的下限,发现它不同于零。但是现在我没有超越值。我只是通过自己对其进行某种模糊的计算来使用p值-“置信区间不包括零”与“值小于 ”相同。p95%p0.05

(想象一下,尽管我知道置信区间不包括零,但我开始怀疑置信区间是否包含零。如果只有一些统计信息可以给我这些信息!)95%99%

但是,摆脱防止“ hacking”?也许可以,但这只会让位于“ d-hacking”。您不认为您可以测试20种不同的代谢参数,而仅报告效果最大的一种?唯一的区别是p-hacking是完全透明的-如果您进行了20次测试并报告为,我知道您是个白痴-但是d-hacking难以理解。如果您进行了20项测试并报告其中之一的,那是否令人印象深刻?[...]ppp0.05d=0.6

但是,从切换到效果大小会不会阻止人们对仍然具有统计学意义的微小效果进行大量处理?是的,但是有时候我们想对微小的影响做出重大贡献,但这些微小的影响仍然具有统计意义!假设可口可乐正在测试一种新产品添加剂,并在大规模的流行病学研究中发现,它每年每十万人造成一个额外的死亡。效果大小大约为零,但在统计上可能仍然很重要。而且,由于全世界每年有大约10亿人喝可乐,因此有1万人死亡。如果可口可乐说“不,效果尺寸太小,不值得考虑”,他们将杀死将近两个毫希特勒人。p


有关的各种替代方案(包括贝叶斯方法)的进一步讨论,请参阅我在ASA中的答案,讨论局限性-替代方案是什么?pp


1
我认为,您对第二个论点的回答没有抓住重点。没有人建议真正的研究人员无限地增加他们的样本量。关键(如我所见)是,研究人员可能感兴趣的任何形式为“效应= 0”的零假设都将是错误的,并且如果零假设已经存在,则进行假设检验的价值很小。已知是假的。当然,这假设我们真正感兴趣的是相关的总体参数,而不是样本的特征。
mark999

1
但是我承认“任何虚无假设……都会是错误的”仅是一种假设。
mark999

1
我应该承认,我在这里的推理是相当非正式的,而且我从未尝试过将其正式化。也许为了使这一论点起作用,我不应该说有趣的和不有趣的效果大小之间有明确的界限。相反,这是一个连续性,有趣度从零开始进一步增加,并且“合理”的样本量应为非常无趣的效果量提供较小的功效,为非常有趣的影响量提供较大的功效,但是没有一个阈值。我想知道是否可以按照Neyman-Pearson的方法准确地将其形式化。
变形虫

6
也许 “从未见过一项不报告值却不报告效应大小的研究”,但是Ziliak和McCloskey在短短的二十年中仅在一本《美国经济评论》上发表了300篇此类论文。 。这些论文他们查看的所有论文的70%以上p
罗宾·埃克曼

3
@amoeba:70%主张的来源可能是2006年摘要中的模棱两可的措辞:“在1980年代[AER]中发表的182篇全长论文中,有70%并未将经济意义与统计意义区分开来”。正如两篇论文所解释的那样,他们的意思是通常只评论后者,并且与因变量有关的回归系数的大小(用术语来说是“经济意义”)并未得到广泛分析。 。但是,总是有报道。我建议您在答案中编辑您的更新以反映这一点:-)
MatteoS

29

我冒犯以下两个想法:

  1. 对于大样本,显着性检验是针对原假设的微小,不重要的偏离而发动的。

  2. 在现实世界中,几乎没有零假设是真实的,因此对它们进行显着性检验是荒谬而离奇的。

关于p值就是这样的稻草人论点。推动统计发展的最根本的问题来自看到趋势,并想知道我们所看到的是偶然的还是系统的趋势的代表。

考虑到这一点,作为统计学家,我们确实通常不会相信零假设(即,其中是两组之间某些度量的平均差)。但是,通过双面检验,我们不知道哪个替代假设是正确的!在双面测试中,我们可能愿意说我们在看到数据之前100%确保。但是我们不知道还是。因此,如果我们运行实验并得出结论,我们就拒绝了(正如Matloff可能说的;无用的结论),但更重要的是,我们也拒绝了Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0(我说;有用的结论)。正如@amoeba所指出的,这也适用于可能是两面的单面测试,例如测试一种药物是否具有积极作用。

的确,这并不能告诉您效果的大小。但这确实告诉您效果的方向。因此,不要把马车放在马的前面。在开始对效果的大小做出结论之前,我想确信我已经正确理解了效果的方向!

类似地,“ p值在微小的,不重要的影响上突袭”的论点在我看来似乎是错误的。如果您将p值视为衡量数据支持结论方向的量度,那么当样本量足够大时,您当然希望它获得较小的影响。要说这意味着它们没有用,这对我来说很奇怪:这些遭受p值影响的研究领域是否与拥有如此多数据而无需评估其估计值可靠性的领域一样?同样,如果您的问题确实是p值“在微小的影响大小上 ”,那么您可以简单地检验假设和H1:μd>1H2:μd<1(假设您认为1是最小的重要效果量)。这通常在临床试验中完成。

为了进一步说明这一点,假设我们只是查看了置信区间并丢弃了p值。在置信区间中要检查的第一件事是什么?在过于重视结果之前,效果是否严格是正面的(或负面的)。因此,即使没有p值,我们也会非正式地进行假设检验。

最后,关于OP / Matloff的要求,“给出令人信服的p值论据明显更好”,我认为问题有点尴尬。我之所以这样说是因为,根据您的观点,它会自动回答自己(“给我一个具体的例子,检验假设比不检验假设要好”)。但是,我认为几乎不可否认的一种特殊情况是RNAseq数据。在这种情况下,我们通常查看的是两个不同组(即患病对照)中RNA的表达水平,并试图找到在两个组中差异表达的基因。在这种情况下,效果大小本身甚至没有真正意义。这是因为不同基因的表达水平差异很大,以至于某些基因的表达高2倍并不意味着什么,而在其他严格调控的基因上,高1.2倍的表达是致命的。因此,在首先比较各组时,效果大小的实际大小实际上并不有趣。但是你真的,真的很想知道基因的表达是否在组之间改变以及改变的方向!此外,与置信区间相比,用p值解决多重比较(一次可能要进行20,000个比较)的问题要困难得多。


2
我不同意知道效果的方向本身是有用的。如果我在地上吐痰,我知道这改善或抑制植物的生长(即无效的无效假设是错误的)。在没有有关其严重性的任何信息的情况下,了解这种影响的方向又有什么帮助?但是,这只是您的两面测试/两个单面测试(某种程度上)的p值告诉您的!(顺便说一句,我认为“实地吐痰”的例子是从几年前我读过的一些有关p值的论文中借来的,但我不记得是哪个。)
Karl Ove Hufthammer

3
@KarlOveHufthammer:马车前。我不应该因为知道效果的方向而停下来。但是在开始担心幅度之前,我应该注意自己的方向正确。您是否认为,如果不检查p值而接受具有较大估计效果的所有内容,科学界会更好吗?
Cliff AB

3
此外,“ p值不能给您有用的信息”的想法只是对假设检验的草率使用。如果您认为效果大小必须大于1的大小才有意义,则可以轻松地检验和假设。(编辑答案以反映这一点,因为我认为这很重要。感谢您提出来)ħ 一个μ d < - 1Ha:μd>1Ha:μd<1
Cliff AB

2
您在编辑中提出了几个非常好的观点。我真的很喜欢你的回答!
变形虫

3
在研究stats.stackexchange.com/questions/200500的答案时,我遇到了Wagenmakers等人的最新预印本,他们在本质上争论了您关于方向性的观点:“可以将单侧P值作为近似检验给出贝叶斯解释。方向,即对潜在影响是负面还是正面的检验。” 有趣的是,因为Wagenmakers是顽固的贝叶斯主义者,他针对p值写了很多文章。不过,我在这里看到一些概念上的共识。
变形虫

6

原谅我的讽刺,但p值实用性的一个显而易见的好例子是发表。我有一位实验人员让我产生p值...他在单株植物中引入了转基因以改善生长。他从那棵单株植物中产生了多个克隆,并选择了最大的克隆,列举了整个种群。他的问题是,审阅者希望看到此克隆最大的p值。我提到在这种情况下,没有必要进行统计,因为他手头有全部人口,但无济于事。

从我的拙见来看,更严重的是,从学术的角度来看,我发现这些讨论很有趣且令人兴奋,就像几年前的常客与贝叶斯的辩论一样。它带出了该领域内最聪明的人的不同观点,并阐明了与通常不容易理解的方法相关的许多假设/陷阱。

在实践中,我认为,与其争论一种最佳的方法,而不是像其他地方以前所建议的那样,用一种有缺陷的标准代替另一种标准,对我来说,这只是一个潜在的系统性问题的启示,而重点应该放在试图找到最佳的方法上。解决方案。例如,一个人可能会提出p值和CI相互补充的情况,以及其中一个比另一个更可靠的情况。在宏伟的计划中,我理解所有推论工具都有其自身的缺点,在任何应用程序中都需要理解这些缺点,以免阻碍最终目标的进展。对学习系统的更深入理解。


6

我将举例说明如何使用和报告p值。这是有关在CERN的大型强子对撞机(LHC)上搜索神秘粒子的最新报告。

几个月前,在高能物理学界中,关于在大型强子对撞机上检测到大粒子的可能性引起了很多激动。记住这是在希格斯玻色子发现之后。下面是摘录的论文 “pp碰撞在√s= 13个TeV的与ATLAS探测器的3.2 FB-1搜索谐振衰减到光子对”本ATLAS合作 2015年12月15日,我的意见如下:

在此处输入图片说明

他们在这里说的是事件计数超出了标准模型的预测。论文的下图显示了过量事件的p值随颗粒质量的变化。您会看到p值在750 GeV附近跳水。因此,他们说有可能检测到质量等于750 Giga eV的新粒子。图中的p值计算为“局部”。全局p值更高。不过,这对于我们的对话并不重要。

重要的是,对于物理学家来说,p值还不够“低”,无法宣布发现,但是对于兴奋剂来说,“低”是足够小。因此,他们计划继续计数,并希望p值会进一步降低。

在此处输入图片说明

放大到2016年8月,芝加哥,关于HEP 的会议。这次由CMS协作组织发表了一份新报告,题为 “在√s = 13 TeV时使用12.9 fb-1的质子-质子碰撞搜索高质量的光子对的共振产生,并在8和13 TeV时组合解释搜索” 。以下是我的评论摘录:

在此处输入图片说明

因此,这些家伙继续收集事件,现在多余的事件在750 GeV处消失了。本文下图显示了p值,您可以看到p值与第一个报告相比如何增加。因此,他们遗憾地得出结论,在750 GeV处未检测到任何颗粒。

在此处输入图片说明

我认为这就是应该使用p值的方式。他们完全有道理,而且显然很有效。我认为原因是频频论方法在物理学中是固有的自然现象。粒子散射没有主观因素。您收集了一个足够大的样本,如果有样本,您将获得清晰的信号。

如果您真的很想知道如何精确计算p值,请阅读以下文章:Cowan等人的“基于似然性的新物理学检验的渐近公式”


2
每个人都希望750 GeV峰值是真实的,现在却很难过。但是我实际上希望这会是一种波动(并且可以打赌会),现在可以放心了。我认为标准模型能很好地工作很酷。不太了解超越标准模型的迫切愿望(就像物理学中的其他所有问题都解决了一样)。无论如何,+ 1是一个很好的例子。
amoeba

2

其他解释都很好,我只是想尝试对出现在我脑海中的问题做出简短而直接的回答。

在随机实验中检查协变量失衡

当我们在随机实验中检查协变量平衡时,您的第二个说法(关于不现实的零假设)是不正确的,因为我们知道随机化已正确完成。在这种情况下,我们知道原假设是正确的。如果我们在治疗和对照组之间在某个协变量上取得了显着差异(当然,在控制了多个比较之后),那么这表明我们在随机化中获得了“劣势”,我们也许不应该相信因果估计为许多。这是因为我们可能会认为,根据这种特殊的“不良吸毒”随机分配所得出的治疗效果估算值,与从“良好吸毒”获得的估算值相比,与真实的治疗效果相距甚远。

我认为这是对p值的完美使用。它使用p值的定义:在给定原假设的情况下,获得等于或更大的值的概率。如果结果极不可能,那么我们实际上确实获得了“不好的吸引力”。

当使用观测数据来尝试进行因果推理(例如匹配,自然实验)时,资产负债表/统计数据也很常见。尽管在这些情况下,余额表远远不足以为估算提供“因果关系”标签。


我不同意这是对p值的完美(甚至很好)使用。您如何定义“不良抽奖”?
mark999

2
@mark,好的。我想我可以在Matt不在时回答您的最后一个问题:当然在示例中。想象一个有50个人的随机实验。想象一下,碰巧发生了,A组中的所有25个人都是男性,B组中的所有25个人都是女性。很显然,这可能使人们对该研究的任何结论产生严重怀疑。那是“不良抽奖”的例子。马特(Matt)建议对A和B之间的性别(协变量)差异进行测试。我看不出马特(Matt)的答案如何有不同的解释。可以说这里根本没有人口。
变形虫

1
@ mark999但是对12/25和13/25之间的差异进行测试显然会产生高的非显着p值,因此我不确定您的意思是什么。马特建议进行测试,并将低p值视为危险信号。您的示例中没有危险信号。我想我会在这里停止,如果需要的话,让马特继续对话。
变形虫

4
否。请参见“余额测试谬误”:gking.harvard.edu/files/matchse.pdf您描述了一种情况,其中测试统计信息本身可能很好(用作最小化的距离度量),但使用p值不能感。
共轭木

2
为了对心理学和神经语言学方面的最新研究,有一个新的arXiv预印本。当您在考虑平衡等问题时,您并不是随机抽样,即使您这样做,测试也会回答一个关于人口平衡而不是样本平衡的推断性问题。
Livius

2

错误率控制类似于生产中的质量控制。生产线中的机器人具有确定零件有缺陷的规则,该规则保证不超过未检测到的缺陷零件的指定比率。同样,根据“诚实的” P值制定药物批准决定的机构,可以通过长期的长期测试构建来定义将错误拒绝率保持在受控水平的方法。在这里,“诚实”表示没有不受控制的偏见,隐藏的选择等。

但是,无论是机器人还是代理商,都不会对通过组装输送机的任何特定药物或零件拥有任何个人利益。另一方面,在科学中,作为个人调查员,我们最关心的是我们研究的特定假设,而不是我们提交的最喜欢的期刊中虚假声明所占的比例。P值的大小或置信区间(CI)的边界都没有直接提到我们关于报告内容可信性的问题。构造CI边界时,应该说这两个数字的唯一含义是,如果其他科学家在研究中进行相同类型的CI计算,则整个研究将保持95%的覆盖率。

有鉴于此,我觉得具有讽刺意味的是,P值被期刊“禁止”,考虑到在重现性危机中,它们对于期刊编辑者比对提交论文的研究人员更有价值,这是保持P值的一种实用方法。从长远来看,海湾某期刊报道的虚假发现率。P值擅长过滤,或者正如IJ Good所写,它们可以保护统计学家的后端,但不能保护客户端的后端。

PS:我是Benjamini和Hochberg的想法的忠实拥护者,他们认为对多项测试进行无条件的期望。在全局“空”下,“惯常” FDR仍处于受控状态-具有一个或多个拒绝的研究会以受控的速率弹出在日记中,尽管在这种情况下,实际上已被某些拒绝的任何研究都具有一定比例等于1的错误拒绝。


1

我同意Matt的观点,即原假设为true时,p值很有用。

我能想到的最简单的示例是测试随机数生成器。如果生成器正常工作,则可以使用任何合适的实现样本大小,并且在测试多个样本的拟合度时,p值应具有均匀的分布。如果这样做,这是正确实施的良好证据。如果没有,您就会知道您在某处出错。

当您知道统计量或随机变量应具有一定分布时(同样,最明显的上下文是模拟),也会发生其他类似情况。如果p值是统一的,则说明您支持有效的实现。如果没有,您知道您的代码中存在问题。


1

我可以想到在实验高能物理中p值有用的示例。参见图1。该图取自本文: 在LHC上使用ATLAS探测器寻找标准模型希格斯玻色子时观察到一个新粒子

在该图中,显示了p值与假设颗粒的质量的关系。零假设表示观测值与连续背景的兼容性。 GeV 处的大偏差()是新粒子的第一个证据和发现。这获得了FrançoisEnglert,Peter Higgs和Peter Higgs的2013年诺贝尔物理学奖。ħ1255σH125

在此处输入图片说明


1
您需要提供有关该图的更多信息,背景以及它如何解决原始问题。这还远远不够。
Greenparker

@Greenparker,试图在情节上添加一些背景。
Nicolas Gutierrez

您没有解释什么是蓝带±1σ
Aksakal
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.