p值本质上是无用的且使用危险吗?


36

纽约时报的这篇文章“ 赔率,不断更新”引起了我的注意。简而言之,它指出

[贝叶斯统计]已证明在解决复杂问题时特别有用,包​​括像海岸警卫队在2013年使用的搜索来寻找失踪的渔夫约翰·奥尔德里奇(尽管到目前为止,在寻找马来西亚航空370号班机的过程中)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据遍地开花...

在这篇文章中,还对常客的p值提出了一些批评,例如:

如果p值小于5%,则通常认为结果具有“统计学意义”。哥伦比亚大学统计学教授安德鲁·盖尔曼(Andrew Gelman)表示,但是这种传统存在危险。即使科学家总是正确地进行了计算(但他们没有这样做),接受p值为5%的所有内容也意味着20个“具有统计意义”的结果只是随机噪声。

除上述之外,也许最著名的批评p值的论文就是《自然方法》一书,作者是Regina Nuzzo的《科学方法:统计误差》,其中讨论了许多由p值方法引起的科学问题,例如重现性问题, p值骇客等

P值是统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠。……也许最糟糕的谬论是自欺欺人,宾夕法尼亚大学的心理学家乌里·西蒙索恩(Uri Simonsohn)及其同事已经普及了“ P-hacking”一词。它也被称为数据挖掘,侦听,钓鱼,重要性追踪和两次浸渍。Simonsohn说:“ P黑客正在尝试多种方法,直到获得期望的结果为止”,甚至是在不知不觉中。......……“这一发现似乎是通过p-hacking获得的,作者放弃了其中一个条件,以使整体p值小于.05”,而“她是p-hacker,她总是在收集数据时监视数据。”

另一件事是一个有趣的情节从下面这里,有关剧情的评论:

无论您的影响有多小,您都可以始终努力收集数据以超过p <.05的阈值。只要不存在您要研究的影响,p值就可以衡量您为收集数据付出了多少努力。

在此处输入图片说明

综上所述,我的问题是:

  1. 第二段引文中的安德鲁·盖尔曼的论点到底意味着什么?他为什么将5%的p值解释为“ 20个具有统计学意义的结果中有1个是随机噪声”?我不相信,因为对我而言,p值可用于一项研究的推断。他的观点似乎与多重测试有关。

    更新:有关此内容,请查看安德鲁·盖尔曼(Andrew Gelman)的博客:不,我没有这么说!(提供给@ Scortchi,@ whuber)。

  2. Cp

  3. 是否有使用p值进行统计分析的良好实践指导,可以得出更可靠的研究结果?
  4. 正如某些统计学家所倡导的那样,贝叶斯建模框架会是更好的方法吗?具体来说,贝叶斯方法是否更有可能解决错误的发现或处理数据问题?由于先验在贝叶斯方法中非常主观,因此我在这里也不确信。是否有任何实践和知名的研究表明贝叶斯方法比常客的p值更好,或者至少在某些特定情况下,这种观点更好?

    更新:对于是否存在贝叶斯方法比常客主义的p值方法更可靠的情况,我将特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需结果。有什么建议么?


更新6/9/2015

刚注意到这个消息,并认为将其放在此处进行讨论会很好。

心理学杂志禁止P值

一项有争议的统计测试终于结束了,至少在一本期刊上如此。本月初,《基本与应用社会心理学》(BASP)的编辑宣布该期刊将不再发表包含P值的论文,因为统计数据经常被用来支持低质量的研究。

与最近的论文一起,《自然》杂志关于“ P值”的“善变的P值产生了无法再现的结果”

更新5/8/2016

早在三月,美国统计协会(ASA)就统计意义和p值发布了声明,“ .... ASA声明旨在将研究引导到'p <0.05后时代'。”

该语句包含6条解决p值滥用的原则:

  1. P值可以指示数据与指定的统计模型不兼容的程度。
  2. P值不能衡量所研究假设为真的概率,也不能衡量仅由随机机会产生数据的概率。
  3. 科学结论和业务或政策决策不应仅基于p值是否超过特定阈值。
  4. 正确的推理需要完整的报告和透明度。
  5. p值或统计显着性不能衡量效果的大小或结果的重要性。
  6. 就其本身而言,p值不能很好地证明有关模型或假设的证据。

详细信息: “ ASA关于p值的声明:上下文,过程和目的”


11
0.050.05

10
@whuber:你是对的:不,我没有这么说!
Scortchi-恢复莫妮卡

4
好发现,@ Scortchi!根据记录,万一链接变坏了,Gelman会强烈拒绝《纽约时报》的描述(尽管非常机智),并写道“接受p值为5%的所有内容都可能导致虚假发现,在这种情况下,观察到的“具有统计意义的”数据模式无法反映总体中的相应模式-远远超过5%的时间。”
ub

3
关于您的评论“只要不存在您正在研究的效果”,这就是涉及p值的研究重点,以确定您正在研究的效果是否确实存在或是否存在特殊性。您收集的数据仅仅是由于随机机会。随着样本量的增加,降低p值在数学上是完全合理的,实际上,这是唯一的选择。您绝不会“破解” p值。从直观的角度来看,将更多的精力用于收集数据将对您从中得出的结论具有更高的信心,这是有道理的。
大卫·韦伯

1
@DavidWebb同意。如果效果的大小很小,那就可以了,如果有更多数据,效果的大小会变得更容易说出来。如果您可以获得更多数据,则应该这样做。
Desty

Answers:


25

这里有一些想法:

  1. 80%100/118.7584%
  2. p
  3. p
  4. 我并不坚决反对使用贝叶斯方法,但是我不相信它们会解决这个问题。例如,您可以一直收集数据,直到可信间隔不再包含您要拒绝的任何值为止。因此,您有“可信的间隔黑客攻击”。正如我所看到的那样,问题在于许多从业人员对他们使用的统计分析本质上不感兴趣,因此他们将以一种没有思想和机械的方式使用他们所需要的任何方法。对于我这里的更多观点,可能有助于阅读我对以下内容的回答:影响大小作为重要性检验的假设

10
(+1)破解可信区间的一种简单方法是采用正确的优先级:-)。当然,没有胜任的从业者会这样做(Gelman强调使用敏感性评估,无信息的超先验等),但是,假设检验的再一次使用者也不会进行p值黑客攻击,对吗?另一方面,在贝叶斯分析中,与所有可能涉及p值黑客的无证分析相比,隐藏一个正在做的事情(假设先验信息已被明确披露)可能会更加困难。
whuber

1
@whuber,是的,但是我认为我们可以搁置任何与先前的不当性或主观性有关的问题。如果真正的效果不完全是0,则有足够的数据可信区间将最终不包括0,就像p小于0.05(参见最后引号)一样,因此您可以继续收集数据直到得到想要的结果,与先前无关。
gung-恢复莫妮卡

4
好点。我回想起一个最近的问题,即在观察到100,000种产品中没有故障之后,如何预测10,000种产品中的故障。答案对先前的问题非常敏感,因为失败非常罕见。这可能是“证明规则”的特殊情况;它表明,实际上收集足够的数据以获得期望的结果可能是不切实际的。这正是某些客户开始恳求统计学家“尽其所能”以达到预期结果的时候!可能许多读者在...之前就已感受到了这种压力。
ub

1
在实际的临床试验中,总是有不同阶段的停止标准来招募更多的实验对象。从这个意义上说,贝叶斯方法听起来不太可能操纵可信区间,从而得出研究结论?
Aaron Zeng

2
@AaronZeng,在我看来,明确的停止标准同样适用于Frequentist和Bayesian观点。我在这里看不到任何净优势/劣势。
gung-恢复莫妮卡

8

对我而言,关于p-hack争议的最有趣的事情之一是,整个p <= 0.05的历史被视为具有统计学意义的“一次蓝月”标准,正如Joseph Kaldane在JASA的法医统计文章中指出的那样上世纪90年代,绝对没有任何统计理论可言。这是一种惯例,简单的启发和经验法则,始于RA Fisher,从那时起已被固定化或奉献为目前的“毫无疑问”的状态。不管是不是贝叶斯方法,挑战该度量标准或至少给它应有的怀疑主义的时间都太早了。

就是说,我对Gelman观点的解释是,众所周知,同行评审过程会奖励积极的统计意义,并且通过不发表那些论文来惩罚微不足道的结果。这与发布微不足道的发现是否会对给定领域的思维和理论产生潜在的巨大影响无关。盖尔曼(Gelman),西蒙斯舒恩(Simonshohn)等人通过在超自然,社会和心理研究中提供可笑但具有统计学意义的发现实例,反复指出在同行评审和发表的研究中滥用0.05的显着性水平。统计上的重大发现是最令人震惊的一项,即孕妇更可能穿红色连衣裙。盖尔曼(Gelman)认为,在对统计结果不存在逻辑挑战的情况下,可能毫无意义的解释。在这里,他指的是该行业的职业危害,其中涉及过分的技术性和深刻性的论点,对推动非专业听众的辩论几乎没有作用。

这就是加里·金(Gary King)恳求定量政治学家(进而扩展为所有定量),以制止机械化技术报道(例如,该结果在ap <= 0.05时很重要)并朝着更实质性的解释迈进时提出的观点。 。这是他的一篇论文的引文,

(1)传达对最大实质利益数量的精确数字估算,(2)包括对这些估算的不确定性的合理度量,以及(3)几乎不需要专门知识来理解。以下简单的陈述可以满足我们的标准:“在其他条件相同的情况下,再受教育一年,您的平均年收入将增加1,500美元,上下浮动约500美元。” 任何聪明的高中学生都会理解该句子,无论统计模型多么复杂,以及用来生成该句子的计算机多么强大。

金的观点非常正确,并勾勒出辩论需要采取的方向。

充分利用统计分析:改进解释和表达,King,Tomz和Wittenberg,2002年,《 Poli Sci的Am Jour》


2
+1感谢您对此主题的可读性,信息性和体贴性的贡献。
ub

@whuber谢谢您的客气话。时间会证明其他参与者是否同意。
Mike Hunter

2
我可能会被欺骗,但我想认为,我们的一些(即使不是大多数)现役选民不是基于同意还是不同意进行投票,而是基于某个职位是否以清晰,权威的方式对原始问题做出回应。毕竟,upvote图标上方的悬停文本显示为“此答案很有用”,而不是“我同意这个人”。(这不要与在我们的meta网站上进行投票相混淆,因为它确实表示同意程度。)这种印象的某些证据是由授予的许多体育精神徽章提供的。
ub

@Whuber您指出的细微差别已得到适当记录。
Mike Hunter

@whuber这个线程是我使用这个词的来源迷惑在我们聊天的一天。
Mike Hunter 2015年

5

阅读所有有见地的评论和答案后,以下是我对问题3的一些想法。

可能在统计分析中避免p值黑客的一种实用指南是,科学地(或生物学上,临床上等)有效/有意义的效应量。

θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

另外,为避免使用太大的样本量来检测效果,还应考虑所需的样本量。也就是说,我们应该限制用于实验的最大样本量。

总结一下,

  1. 我们需要为有意义的效果大小预先定义一个阈值,以声明重要性。
  2. 我们需要预先定义实验中使用的样本量阈值,以量化有意义的效应量的可检测性。

通过上面的内容,也许我们可以因此避免因巨大的样本量而引起的次要“重大”影响。


[2015年9月9日更新]

关于问题3,以下是根据自然界最近发表的论文提出的一些建议正如我在问题部分中提到的,“善变的P值会产生不可再现的结果”

  1. 报告效果大小的估计值及其精度,即95%置信区间,因为这些信息量更多的信息可以准确地回答诸如差异有多大,关系或关联有多强的问题。
  2. 将效果量估计值和95%的置信区间放在特定科学研究/问题的背景下,并着重于它们回答这些问题的相关性,并折衷善变的P值;
  3. 将功率分析替换为“ 精度规划 ”,以确定估计效应大小以达到定义的精确度所需的样本大小。

[2015年9月9日更新结束]


4
H0:θ=δ

@AndyW,感谢您的评论。我相应地更改了答案。听起来更好的选择吗?
Aaron Zeng

2
+1以引用该《自然》文章。但是,它包含一些惊人的错误信息,例如(未宣布的)贝叶斯对p值的解释:“例如,如果一项研究获得P = 0.03,则重复研究有90%的机会在某个地方返回P值在0-0.6的较大范围(90%的预测间隔)之间,而P <0.05的机会仅为56%。” 我想知道作者在假设什么先验分布,为什么那才有意义呢?
ub

@AndyW和Aaron Zeng甚至更好的是将两个测试的结果进行差异比较对等测试。这样一来,人们就可以将相关的效应大小和统计功效明确地置入得出的结论中(参见相关性测试部分)。
亚历克西斯

3

P(D|H0)αH0H0

  1. 这意味着1/20结果在不应该有的情况下可能会拒绝null。如果科学是基于单个实验得出的结论,那么这种说法是可以辩护的。否则,如果实验是可重复的,则意味着19/20不会被拒绝。这个故事的寓意是实验应该是可重复的。

  2. 科学是基于“客观性”的传统,因此“客观概率”自然具有吸引力。回想一下,实验是为了证明高度控制,通常采用块设计和随机化来控制研究以外的因素。因此,与随机比较确实是有道理的,因为除了研究中的因素外,所有其他因素都应被控制。在移植到科学领域之前,这些技术在农业和工业领域取得了巨大成功。

  3. 我不确定缺乏信息是否真的是问题所在。值得注意的是,对于许多非数学科学而言,统计学只是一个勾当。

  4. 我建议对将两个框架结合在一起的决策理论进行一般阅读。它只是归结为您使用尽可能多的信息。频繁统计数据假定模型中的参数具有来自固定分布的未知值。贝叶斯假设模型中的参数来自我们所知道的条件分布。如果有足够的信息形成先验信息,又有足够的信息将其更新为准确的后验信息,那就太好了。如果没有,那么结果可能会更糟。


1

统计测试结果的可重复性

这是一个简短,简单的练习,用于基于统计测试来评估决策的可重复性。

考虑具有一组包含H1和H2的替代假设的零假设H0。如果H1为true,则将统计假设检验程序设置为0.05的显着性水平,以具有0.8的幂。进一步假设H2的功效为0.5。为了评估测试结果的可重复性,考虑将实验执行两次测试程序。从H0为真的情况开始,表1中显示了联合实验结果的概率。无法重现决策的概率为0.095。

表1.频率(如果H0为真)

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

频率随着自然状态的变化而变化。假设H1为真,则可以按设计的0.8的幂拒绝H0。表2显示了联合实验的不同结果的结果频率。无法重现决策的概率为0.32。

表2.如果H1为真,则频率

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

假设H2为真,则将以0.5的概率拒绝H0。表3中显示了联合实验不同结果的结果频率。无法重现决策的概率为0.5。

表3.如果H2为真,则频率

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

测试程序旨在控制概率为0.05的I型错误(即使无效,也拒绝否定假设)和限制II型错误(即使错误且H1为真,也不拒绝否定假设)到0.2。对于两种情况,假设H0或H1为真,如果重复两次相同的实验,则分别导致“不可再现”,“矛盾”决策的不可忽略的频率分别为0.095和0.32。如果自然的真实状态介于零假设和用于设计实验的替代假设之间,则情况变得更糟,“不可复制”,“矛盾”决策的频率高达0.5。

如果更严格地控​​制类型1错误,或者如果自然的真实状态远离零值,则情况也可能会变得更好,这将导致拒绝接近1的零值的能力。

因此,如果您想要更可重复的决策,请提高重要性级别和测试的能力。不太令人惊讶...


(+1)但您不能在实验前将p值设置为5%-认为您的意思是“显着性水平”。
Scortchi-恢复莫妮卡

谢谢。最后一句话中的相同内容:“降低显着性水平并提高能力”
Scortchi-恢复莫妮卡

我认为p值的最大问题是人们将其具有实质性意义混淆。因此,如果p <.05,则意味着发现的效果大小足够大。我被要求在工作中通过产生p值来产生[实质上]重要的效果。
user54285
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.