这是p值问题的解决方案吗?


67

2016年2月,美国统计协会发布了有关统计意义和p值的正式声明。关于它的主题我们广泛讨论了这些问题。但是,到目前为止,还没有任何权威机构提供公认的有效替代方案。美国统计学会(ASS)发布了其回应p值:下一步是什么?

“ p值并不能带来太多好处。”

我们认为ASA还远远不够。现在该承认p值时代已经结束。统计学家已经成功地使用它们来迷惑大学生,欺骗科学家和愚蠢的编辑,但是全世界已经开始看到这种诡计。我们需要放弃20世纪初统计学家控制决策的尝试。我们需要回到实际起作用的地方。

ASS的官方建议是这样的:

ASS代替p值,提倡使用STOP (SeaT-Of-Pant程序)。这种久经考验的方法被古希腊人,文艺复兴时期的人以及所有科学家使用,直到罗纳德·费舍尔(Ronald Fisher)出现并破坏了事物。STOP是简单,直接,数据驱动且权威的。为此,要有权威人士(最好是年长的男性)查看数据并决定他们是否同意他的观点。当他决定这样做时,结果将是“显着的”。否则,结果就不那么重要了,每个人都必须忘记整个事情。

原则

回应涉及ASA的六项原则。

  1. STOP可以指示数据与指定的统计模型不兼容的程度。

    我们喜欢这个短语,因为它是STOP回答是或否的任何一种奇妙的方式。与p值或其他统计程序不同,这毫无疑问。对于那些说“我们不需要没有臭”的原假设的人来说,这是一个完美的答案!**!@是什么呢?没有人能弄清楚它应该是什么。”

  2. STOP不能衡量假设成立的可能性:它实际上决定了该假设成立与否。

    每个人都对概率感到困惑。通过将可能性排除在外,STOP消除了多年的本科生和研究生学习的需要。现在,任何人(年龄足够大且男性)都可以执行统计分析,而无需听一次单独的统计讲座或运行奥秘的软件(产生难以理解的输出)的痛苦和折磨。

  3. 科学结论和业务或政策决策可以基于常识和真实权威数字。

    无论如何,重要的决定总是由当局做出的,所以让我们承认这一点并削减中间商。使用STOP将使统计人员自由地做他们最适合的工作:使用数字来掩盖事实真相并使当权者的偏好成圣。

  4. 正确的推理需要完整的报告和透明度。

    STOP是有史以来发明的最透明和不言而喻的统计程序:您查看数据并做出决定。它消除了人们用来掩盖自己不知道数据含义的事实的所有那些令人困惑的z检验,t检验,卡方检验和字母汤程序(ANOVA!GLM!MLE!)。

  5. STOP衡量结果的重要性。

    这是不言而喻的:如果当权者使用STOP,那么结果必须很重要。

  6. STOP本身就提供了有关模型或假设的良好证据。

    我们不想挑战一个权威,是吗?研究人员和决策者将认识到STOP提供了他们需要知道的所有信息。由于这些原因,数据分析可以以STOP结尾;无需其他方法,例如p值,机器学习或占星术。

其他方法

一些统计学家偏爱所谓的“贝叶斯”方法,该方法不加思索地应用由18世纪牧师死后发表的晦涩定理来解决所有问题。其最著名的拥护者自由地承认这些方法是“主观的”。如果我们要使用主观方法,那么显然决策者越权威和知识渊博,结果就会越好。因此,STOP成为所有贝叶斯方法的逻辑极限。当您可以只向负责人显示数据并询问他的意见时,为什么还要花大量的时间计算这些可怕的计算呢?故事结局。

最近出现了另一个社区来挑战统计学家的神职人员。他们称自己为“机器学习者”和“数据科学家”,但实际上他们只是寻求更高地位的黑客。如果这些人希望人们认真对待他们,这就是ASS的官方立场。


问题

这是否是ASA用p值和无效假设检验确定的问题的答案?它真的可以统一贝叶斯和频繁主义范式(在响应中隐式声明)吗?


11
“唐纳德·特朗普(Donald Trump)为最高STOP ASS法官:再次使统计数据变得出色!”
Alex R.

14
显然,STOP是次佳的过程。令我感到惊讶的是,这没有像ASS这样的受人尊敬的学者组织出现。明智的说,为什么要浪费时间查看所有数据?只需给出您的是/否答复。该方法当前已被广泛使用。案例研究在多年整除4.比比皆是,尤其是在美国
枢机主教

4
我认为企业也可以从采用这些方法中受益匪浅,因为它们不再需要承担雇用人员来分析数据的沉重成本。
dsaxton '16

4
@henry好像[april-1]标签没有告诉我们吗?
Glen_b '16

9
@亨利认真吗?您能给我们展示一个假冒的组织,当您使用Google的名字时,该组织的点击量就超过25万吗?
whuber

Answers:


18

我一直主张为自己的新方法被称为RADD统计决策:[R OLL 一个 d AMN d即。它还解决了所有关键点。

1)RADD可以指示数据与指定统计模型的兼容性。

如果您增加一个数字,显然证据会更支持您的模型!另一个好处是,如果我们希望获得更多的信心,我们可以为更多方面提供支持。如果搜索足够,您甚至可以找到100个双面骰子!

2)RADD可以决定假设是否成立。

您只需要滚动2面骰子,即掷硬币。

3)RADD可用于制定业务或政策决策

让一群决策者坐在一个房间里,让他们全都掷骰子!最高的胜利!

4)RADD是透明的。

可以记录结果,并且可以保留模具本身以供进一步研究*

5)RADD衡量结果的重要性。

显然,向上滚动表示发生了非常重要的事件。

6)RADD提供了很好的证据。

我们不是说更高的成绩更好吗?

因此,不,STOP不是答案。答案是RADD。


7
别忘了,它可以确保I型错误控制(在给定足够多边骰子的情况下,在任何所需的水平),例如,当出现最多100个边骰子的5个边之一时,仅拒绝零假设即可I型错误率为5%。
比约恩


17

我必须根据经验说,在业务现实中,STOP是默认的决策标准,相对于p值和其他常客或贝叶斯方法。从业务角度来看,STOP提供了简单而确定的答案,这使它比不确定的“概率”方法更可靠。而且,在大多数情况下,与其他方法相比,它更易于实现并且更容易适应不断变化的现实。是/否决定对于中高层管理者来说更具说服力。在大多数情况下,“停止报告”比基于数据的报告短并且易于阅读。此外,采用此方法可使您的雇主削减数据科学家和SAS许可证的成本。我要说的是,STOP的唯一问题是,要使PowerPoint演示文稿呈现STOP结果更加困难,但这是一个动态发展的领域,因此,将来可能会提出更好的可视化方法。


6
简报了带有结论的PowerPoint幻灯片后,现在就进行更改为时已晚,因此有两种选择,可以使分析适合结论,或者根本不用理会分析。
Mark L. Stone

12
@ MarkL.Stone当然!我个人喜欢在查看数据之前为演示文稿作图
蒂姆

15

p值辩论的这种很好的辅助,在我看来有趣但也有些陈旧,使我想起了几年前在《英国医学杂志》(BMJ)的圣诞节刊物上发表的一篇独特论文,该论文每年圣诞节都会发表真正但有趣的研究文章。尤其是,艾萨克斯(Isaacs)和菲茨杰拉德(Fitzgerald)的这项工作强调了循证医学的七个关键替代方法(即基于实际临床和统计证据的医学实践):

  • 杰出医学
  • 止痛药
  • 口才医学
  • 普罗维登斯医学
  • 差异医学
  • 神经性药物
  • 信心医学

最有趣的是,您必须查看上述项目的突出显示测量设备和测量单位的列(例如,基于风湿性药物的听力计和分贝!)。


4
+1。非常感谢您本着问题的精神所作的出色贡献。(1)只是要澄清一下:您是在p值辩论中发现“陈旧”还是这个问题?(2)您是否知道在哪里可以找到参考文献(6)“ J指数薪资”?我敢肯定,如果它更知名,它将有许多狂热的读者。
ub

5
(1)您的贡献是“新鲜证明”(引用rottentomatoes.com)。相反,我发现过分强调p值的局限性。在机器学习,大数据和公众缺乏科学素养的时代,ASA的立场似乎有点受虐狂。(2)我想您会在他们发表BMJ另一篇圣诞节文章推荐的随机试验的同一期刊上找到该文章:bmj.com/content/327/7429/1459
Joe_74 '16

我总是忘记,使用基于Dunning-Kruger推理的基于信心的医学吗?
亚历克西斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.