纽约时报的这篇文章“ 赔率,不断更新”引起了我的注意。简而言之,它指出
[贝叶斯统计]已证明在解决复杂问题时特别有用,包括像海岸警卫队在2013年使用的搜索来寻找失踪的渔夫约翰·奥尔德里奇(尽管到目前为止,在寻找马来西亚航空370号班机的过程中)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据遍地开花...
在这篇文章中,还对常客的p值提出了一些批评,例如:
如果p值小于5%,则通常认为结果具有“统计学意义”。哥伦比亚大学统计学教授安德鲁·盖尔曼(Andrew Gelman)表示,但是这种传统存在危险。即使科学家总是正确地进行了计算(但他们没有这样做),接受p值为5%的所有内容也意味着20个“具有统计意义”的结果只是随机噪声。
除上述之外,也许最著名的批评p值的论文就是《自然方法》一书,作者是Regina Nuzzo的《科学方法:统计误差》,其中讨论了许多由p值方法引起的科学问题,例如重现性问题, p值骇客等
P值是统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠。……也许最糟糕的谬论是自欺欺人,宾夕法尼亚大学的心理学家乌里·西蒙索恩(Uri Simonsohn)及其同事已经普及了“ P-hacking”一词。它也被称为数据挖掘,侦听,钓鱼,重要性追踪和两次浸渍。Simonsohn说:“ P黑客正在尝试多种方法,直到获得期望的结果为止”,甚至是在不知不觉中。......……“这一发现似乎是通过p-hacking获得的,作者放弃了其中一个条件,以使整体p值小于.05”,而“她是p-hacker,她总是在收集数据时监视数据。”
另一件事是一个有趣的情节从下面这里,有关剧情的评论:
无论您的影响有多小,您都可以始终努力收集数据以超过p <.05的阈值。只要不存在您要研究的影响,p值就可以衡量您为收集数据付出了多少努力。
综上所述,我的问题是:
第二段引文中的安德鲁·盖尔曼的论点到底意味着什么?他为什么将5%的p值解释为“ 20个具有统计学意义的结果中有1个是随机噪声”?我不相信,因为对我而言,p值可用于一项研究的推断。他的观点似乎与多重测试有关。
更新:有关此内容,请查看安德鲁·盖尔曼(Andrew Gelman)的博客:不,我没有这么说!(提供给@ Scortchi,@ whuber)。
- 是否有使用p值进行统计分析的良好实践指导,可以得出更可靠的研究结果?
正如某些统计学家所倡导的那样,贝叶斯建模框架会是更好的方法吗?具体来说,贝叶斯方法是否更有可能解决错误的发现或处理数据问题?由于先验在贝叶斯方法中非常主观,因此我在这里也不确信。是否有任何实践和知名的研究表明贝叶斯方法比常客的p值更好,或者至少在某些特定情况下,这种观点更好?
更新:对于是否存在贝叶斯方法比常客主义的p值方法更可靠的情况,我将特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需结果。有什么建议么?
更新6/9/2015
刚注意到这个消息,并认为将其放在此处进行讨论会很好。
一项有争议的统计测试终于结束了,至少在一本期刊上如此。本月初,《基本与应用社会心理学》(BASP)的编辑宣布该期刊将不再发表包含P值的论文,因为统计数据经常被用来支持低质量的研究。
与最近的论文一起,《自然》杂志关于“ P值”的“善变的P值产生了无法再现的结果”。
更新5/8/2016
早在三月,美国统计协会(ASA)就统计意义和p值发布了声明,“ .... ASA声明旨在将研究引导到'p <0.05后时代'。”
该语句包含6条解决p值滥用的原则:
- P值可以指示数据与指定的统计模型不兼容的程度。
- P值不能衡量所研究假设为真的概率,也不能衡量仅由随机机会产生数据的概率。
- 科学结论和业务或政策决策不应仅基于p值是否超过特定阈值。
- 正确的推理需要完整的报告和透明度。
- p值或统计显着性不能衡量效果的大小或结果的重要性。
- 就其本身而言,p值不能很好地证明有关模型或假设的证据。
详细信息: “ ASA关于p值的声明:上下文,过程和目的”。