ASA讨论了限制-有哪些替代方案?


100

我们已经有多个线程标记为,这些线程揭示了许多关于它们的误解。十个月前,我们有一个线程关于心理杂志,“禁止” -值p p,现在美国统计协会(2016)指出,与我们的分析,我们“不应该用的计算结束 -值”。p

美国统计协会(ASA)认为,科学界可以从一份正式声明中受益,该声明阐明了一些正确使用和解释值的公认原则。p

该委员会列出了其他方法作为可能替代或补充:p

鉴于普遍存在对误用和误解 ,一些统计学家倾向于用其他方法来补充甚至替代 。这些方法包括强调评估而不是测试的方法,例如置信度,可信度或预测间隔;贝叶斯方法;替代的证据度量,例如似然比或贝叶斯因子;以及其他方法,例如决策理论建模和错误发现率。所有这些措施和方法都依赖于进一步的假设,但它们可能更直接地解决效应的大小(及其相关的不确定性)或假设是否正确。 ppp

因此,让我们想象一下后的现实。ASA列出了一些可以代替,但是为什么它们更好?对于一生使用的研究人员,其中哪一个可以代替他?我想,这样的问题出现在后 -值的现实,所以也许我们尽量在他们面前的一个步骤。可以直接使用的合理替代方法是什么?为什么这种方法应该说服您的首席研究员,编辑或读者?p p ppppp

正如此后续博客条目所建议的那样,在其简单性方面无与伦比:p

p值只需要一个统计模型,即可统计要保留的原假设下的统计行为。即使使用替代假设的模型来选择“良好”统计量(将用于构造p值),该替代模型也不必正确才能使p值有效,并且有用(即:控制I型错误在期望的水平上,同时提供检测实际效果的能力)。相比之下,其他(出色且有用的)统计方法(如似然比,效果大小估计,置信区间或贝叶斯方法)都需要假定的模型来保持更广泛的情况,而不仅是在经过测试的零值下。

是它们,还是不正确,我们可以轻松地替换它们?

我知道,这是广义的,但主要问题很简单:什么是可以替代的值的最佳(以及为什么)现实生活中的替代方法?p


ASA(2016)。ASA关于统计意义和声明。P 美国统计学家。(在新闻)


3
势必成为经典的+1问题!贝叶斯方法,因为它允许我们(至少在主观上)回答我们经常感兴趣的问题,即:“根据证据(数据),假设成立的可能性是多少?”
Christoph Hanck

9
“后值现实”具有很好的反乌托邦环。p
马克·克拉森

4
随ASA声明一起发布的讨论文件值得阅读,因为其中一些人对可替代p值的问题提出了建议。补充内容
赛斯

2
我根据ASA报告的另一部分发布了一个相关问题,它是有关p值潜在滥用的警告之一:我们对p黑客了解多少?
银鱼

1
至于我自己的问题评论,有一个很好的主题,讨论类似题目:stats.stackexchange.com/questions/17897/...
蒂姆

Answers:


100

我将把答案集中在的替代方案什么的特定问题上p

与ASA声明一同发布21的讨论文件(如补充材料):由娜奥米·奥特曼,奥特曼道格拉斯,丹尼尔J.本杰明,约夫·本杰米尼,吉姆·伯杰,唐·贝瑞,约翰·卡林,乔治·科布,安德鲁·格尔曼,史蒂夫·古德曼,桑德·格陵兰(Sander Greenland),约翰·约阿尼迪斯(John Ioannidis),约瑟夫·霍洛维茨(John I. ;我列出所有内容以供将来搜索)。这些人可能涵盖了有关和统计推断的所有现有观点。p

我浏览了所有21篇论文。

不幸的是,他们大多没有讨论任何真正的选择,即使大部分是有关限制,误解,以及其他各种问题 -值(为防御 -值,看到的Benjamini,梅奥和塞恩)。这已经表明,备选方案(如果有的话)不容易找到和/或捍卫。 ppp

因此,让我们看一下ASA语句本身给出的“其他方法”列表(如您的问题中所引用):

[其他方法]包括强调评估而不是测试的方法,例如置信度,可信度或预测间隔;贝叶斯方法;替代的证据度量,例如似然比或贝叶斯因子;以及其他方法,例如决策理论建模和错误发现率。

  1. 置信区间

    置信区间是一种常客工具,它与并驾齐驱。与值一起报告置信区间(或某个等效值,例如平均值的平均值标准误差)几乎总是一个好主意。± pp±p

    有些人(不是ASA争论之中)认为,置信区间应该更换的 -值。这种方法最直言不讳的支持者之一是Geoff Cumming,他称其为新的统计信息(这个名字令我震惊)。有关详细的评论,请参见Ulrich Schimmack的这篇博客文章:《 Cumming的评论(2014年)》,《新统计:将旧统计重新出售为新统计》。另请参见我们无法负担 Uri Simonsohn 在实验室博客文章中研究效应大小的相关观点。p

    另见本线程(我的回答文献)有关规范Matloff的similiar的建议,我认为,报告CI的一个时仍想有 -值报告,以及:什么是好的,有说服力的例子,其中的p值有用吗?p

    但是,其他一些人(也不属于ASA争议者)则认为,置信区间作为一种频繁使用的工具,与容易被误导,也应予以处理。参见例如Morey等。2015年,在评论中将@Tim链接到置信区间的置信度的谬误。这是一个非常古老的辩论。p

  2. 贝叶斯方法

    (我不喜欢ASA语句如何列出此列表。可信区间和贝叶斯因子与“贝叶斯方法”分开列出,但它们显然是贝叶斯工具。因此,在这里将它们一起计算。)

    • 关于贝叶斯与频频主义者的争论,有大量而且很有见地的文献。请参见,例如,最近发表的这篇文章中的一些思想:什么时候(如果有的话)频频论方法实质上比贝叶斯方法好?贝叶斯分析非常有意义如果一个人有良好的信息前科,让大家都只是幸福来计算和报告或代替的p H 0θ = 0 |数据p 至少为极值| H 0p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)-但是,人们通常没有很好的先验条件。实验人员记录了20只大鼠在一种情况下做某事,而20只大鼠在另一种情况下做同一事;预测是前者的表现将超过后者的表现,但没有人愿意或确实有能力就表现差异提出明确的先验。(但请参阅@FrankHarrell的答案,他在该答案中主张使用“怀疑的先验”。)

    • 顽固的贝叶斯主义者建议使用贝叶斯方法,即使该方法没有任何先验知识。最近的一个例子是Krushke,2012年,贝叶斯估计取代了检验t,简写为BEST。该想法是使用具有弱无先验先验的贝叶斯模型来计算感兴趣效果(例如,群体差异)的后验。与常识性推理的实际差异似乎通常很小,据我所知,这种方法仍然不受欢迎。请参阅什么是“无信息的先验”?我们可以拥有一个完全没有信息的人吗?讨论什么是“非信息性”(答案:没有这样的东西,因此存在争议)。

    • 回到Harold Jeffreys的另一种方法是基于贝叶斯测试(与贝叶斯估计相对)并使用贝叶斯因子。较有说服力和最多产的支持者之一是Eric-Jan Wagenmakers,他近年来发表了很多关于该主题的文章。这种方法的两个功能在这里值得强调。首先,请参阅Wetzels等人,2012,《 ANOVA设计的默认贝叶斯假设检验》,以举例说明这种贝叶斯检验的结果在多大程度上取决于替代假设的具体选择。 pH1并确定其参数分布(“先前”)。其次,一旦选择了“合理的”先验条件(Wagenmakers宣传Jeffreys所谓的“默认”先验条件),则得出的贝叶斯因子通常与标准值非常一致,例如,参见Marsman和Wagenmakersp

      贝叶斯因子与p值

      因此,虽然Wagenmakers等。一直坚持认为存在严重缺陷,而贝叶斯因子是要走的路,一个人不禁会想...(公平地说,Wetzels等人2011年的观点是,对于仅接近贝叶斯因子指出反对无效值的证据非常微弱;但是请注意,只需使用更严格的,就可以轻松地在常人主义范式中解决这一问题,无论如何,这是很多人都主张的。) p 0.05 αpp0.05α

      Wagenmakers等人比较流行的论文之一。在贝叶斯因素的辩护中是2011年,为什么心理学家必须改变他们分析数据的方式:以psi为例,他辩称臭名昭著的Bem关于预测未来的论文不会得出错误的结论,只要他们使用贝叶斯因素代替的。请参阅Ulrich Schimmack的这篇深思熟虑的博客文章,以了解详细的(并且令人信服的IMHO)反论点:为什么心理学家不应该改变他们分析数据的方式:魔鬼处于默认优先级p

      另请参见Uri Simonsohn撰写的针对小效果的默认贝叶斯测试偏见

    • 为了完整起见,我提到Wagenmakers 2007年,为的普遍问题的实际解决方案 -值p建议使用BIC作为一个近似贝叶斯因子来替代 -值。BIC并不依赖于先验,因此,尽管其名称如此,但实际上并不是贝叶斯。我不确定对该提案有什么看法。似乎最近,Wagenmakers更加支持不提供信息的Jeffreys先验的贝叶斯测试,请参见上文。p


    有关贝叶斯估计与贝叶斯测试的进一步讨论,请参见贝叶斯参数估计或贝叶斯假设测试?以及其中的链接。

  3. 最小贝叶斯因子

    在ASA争议中,Benjamin&Berger和Valen Johnson明确提出了这一建议(仅有的两篇论文都是关于提出具体选择的)。他们的具体建议有些不同,但在精神上是相似的。

    • Berger的想法可以追溯到1987年Berger& Sellke,直到去年,Berger,Sellke和合作者都发表了许多论文来阐述这一工作。这个想法是在零点假设的概率且所有其他数值概率的尖峰和台阶之前,对称分布在附近(“局部替代”),然后是最小后验在所有局部替代方案中,即最小贝叶斯因子,都远高于值。这是(备受争议的)主张的基础,0.5 μ 0.5 0 p ħ 0p p p - ë p 日志p p - ë 日志p 10 20 pμ=00.5μ0.50p(H0)pp值针对null会“夸大证据”。建议使用贝叶斯因数的下限来代替null而不是值;在一些广泛的假设下,该下限竟然由,即值实际上乘以,这是常见乘数的到。值范围。史蒂文·古德曼(Steven Goodman)也认可这种方法。peplog(p)pelog(p)1020p

      以后更新:看到一幅精美的动画片,以一种简单的方式解释了这些想法。

      甚至更高版本的更新:请参见Held&Ott,2018年,关于值和贝叶斯因子p,以全面了解并进一步分析将值转换为最小贝叶斯因子。这是一张桌子:p

      最小贝叶斯因子

    • 瓦伦•约翰逊(Valen Johnson)在他的PNAS 2013论文中提出了类似的建议; 他的建议大约归结为乘以由-值这大约是到。p 5104πlog(p)510


    有关约翰逊论文的简短评论,请参阅PNAS中安德鲁·盖尔曼(Andrew Gelman)和@西安的答复。对于与Berger&Sellke 1987的反论点,请参见Casella&Berger 1987(不同的Berger!)。在APA讨论文件中,Stephen Senn明确反对以下任何一种方法:

    错误概率不是后验概率。当然,统计分析比值要重要得多,但是应该不理会而应该以某种方式使其变形以成为第二类贝叶斯后验概率。P

    另请参见Senn论文中的参考文献,包括Mayo博客的参考文献。

  4. ASA声明列出了“决策理论建模和错误发现率”作为另一种选择。我不知道他们在说什么,很高兴在Stark的讨论文件中看到这一点:

    “其他方法”部分忽略了以下事实:某些方法的假设与的假设相同。实际上,一些方法使用作为输入(例如,错误发现率)。 ppp


我非常怀疑在现实的科学实践中,有什么东西可以替代,从而通常与相关的问题(复制危机, hacking等)将消失。任何固定的决策程序(例如贝叶斯决策程序)都可能会以与可被 hack 相同的方式被“ hacked” (有关此的一些讨论和演示,请参阅Uri Simonsohn的2014年博客文章)。p p p pppppp

引用安德鲁·盖尔曼的讨论文件:

总而言之,我同意ASA关于大多数声明,但我认为问题更深,解决方案不是改革或用其他统计摘要或阈值代替它们,而是走向更大地接受不确定性和拥抱变化。 ppp

从斯蒂芬·森(Stephen Senn):

P

p<0.05p

daccess-ods.un.org daccess-ods.un.org不要寻找替代NHST的神奇替代品,也不需要其他客观的机械仪式来替代它。它不存在。


1
@amoeba谢谢,这是一个很棒的总结!我同意您的怀疑-此话题之所以出现,部分是因为我与人分享。此时此刻,我让线程处于打开状态-没有可接受的答案-也许有人将能够提供令人信服的示例和论据,表明存在某些真实,良好的替代方法。
蒂姆

1
@amoeba关于Wagenmakers和BIC,最好将其与评论进行比较,例如Gelman:andrewgelman.com/2008/10/23/i_hate_bic_blah
Tim

2
这是一个真正令人印象深刻的答案,值得成为CV上票数最高的答案。我可能会在蒂姆之后的某个时候再增加一笔赏金。
gung

谢谢@gung,我很高兴听到这一消息,这意味着您的到来很多。我应该说,尽管我只是对贝叶斯测试有一点肤浅的了解,但对它的实践经验却为零。因此,此答案提供了我一直在阅读的内容的摘要,但这并不是专家的意见。
变形虫

1
不,您不需要先备有先导知识的Bayes才能正常工作。正如Spiegelhalter所展示的那样,怀疑先验起着重要作用并且易于使用。贝叶斯后验概率具有主要优势。
弗兰克·哈雷尔

27

这是我的两分钱。

我认为,在某些时候,许多应用科学家提出了以下“定理”:

p-value<0.05my hypothesis is true.

大多数不良做法都来自这里。

p

我曾经与使用统计信息的人们一起工作,但并不真正了解统计信息,这是我看到的一些内容:

  1. p<0.05

  2. p<0.05

  3. 0.05

所有这些都是由精通且诚实的科学家完成的,没有强烈的作弊感。为什么呢 恕我直言,因为定理1。

p0.05p<0.05p<0.05

p

p

p>0.05

  1. H0:μ1μ2pH0p=0.2

pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1

另一个相关案例是专家想要:

  1. μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

提及替代假设是解决这种情况的唯一解决方案。

因此,结合使用后验几率,贝叶斯因子或似然比以及置信度/可信区间,似乎可以减少主要的问题。

p

pp

我的两分钱结论

p


也许您可以编辑您的示例以使其更加清晰,因为到目前为止,您正在计算什么,数据是什么以及数字来自何处?
蒂姆

@蒂姆 TKS的饲料。您要参考哪个示例?
peuhp

“尝试比较(只是因为我们有数据)一个假设:取10和10数据,计算p值。找到p = 0.2...。”
蒂姆

1
我也认为即使数据似乎暗示“知道”您的假设是正确的,但这也不是一件坏事。显然,这是格雷戈尔·孟德尔(Gregor Mendel)在实验中出现问题时的感觉,因为他的直觉很强,理论上是正确的。
dsaxton

@dsaxton完全同意。也许还不是很清楚,但这是我试图在第一点上说明的一件事:p值并不是科学归纳的最终关键(尽管它似乎是针对特定受众的)。它是在一定条件下通过一定数量的数据统计得出的证据。并且,在您有太多外部原因认为hyp是正确的情况下,但是当数据确实提供了“好” p值时,您可能会适当地提及其他内容。我会尽力使答案更清楚。
peuhp

24

P

  1. 比贝叶斯方法更多的软件可用于常客方法。
  2. 当前,一些贝叶斯分析需要很长时间才能运行。
  3. 贝叶斯方法需要更多的思考和更多的时间投入。我不介意思考,但是时间通常很短,因此我们采取捷径。
  4. 引导程序是一种高度灵活且有用的日常技术,与贝叶斯世界相比,与贝叶斯世界的联系更多。

PP 使得您必须进行任意的多重性调整,甚至调整可能已产生影响但实际上没有产生影响的数据外观。

P

除了高斯线性模型和指数分布以外,我们对常识性推断所做的几乎所有操作都是近似的(一个很好的例子是二进制对数模型,由于其对数似然函数非常非二次,因此会引起问题)。利用贝叶斯推理,一切都精确到模拟误差范围内(并且您始终可以进行更多的模拟以获得后验概率/可信区间)。

我已经在http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html上写了关于我的思维和进化的更详细的解释


3
p

2
p

3
t

1
弗兰克,谢谢。我对贝叶斯测试不是很熟悉(并且以前没有听说过Box&Tiao),但我的总体印象是,退出贝叶斯测试的贝叶斯因素在很大程度上取决于对非信息性贝叶斯测试的选择。这些选择可能很难激发。我猜这在可靠的时间间隔内是一样的-它们将在很大程度上取决于对无先验信息的选择。不是吗 如果是,那该如何处理呢?
变形虫

2
是的,尽管我不使用贝叶斯因子。经常采用的方法也选择了先验方法,即忽略了有关该主题的所有其他知识。我更喜欢Spiegelhalter先前的怀疑态度。在理想的世界中,您将让怀疑论者提供先决条件。
Frank Harrell

6

来自沃顿商学院的杰出预测员斯科特·阿姆斯特朗Scott Armstrong)大约十年前他联合创立的国际预测杂志上发表了一篇题为《意义显着性测试损害预测的进展》的文章。即使在预测中,也可以将其推广到任何数据分析或决策中。他在文章中指出:

“具有统计意义的检验有害于科学进步。迄今为止,寻找该结论例外的努力都没有。”

对于对重要性检验和P值的对立观点感兴趣的任何人,这都是一本优秀的读物。

我之所以喜欢这篇文章,是因为Armstrong提供了重要性检验的替代方法,该方法简洁明了,尤其对于像我这样的非统计学家而言,很容易理解。我认为这比问题中引用的ASA文章要好得多:在此处输入图片说明

除我进行随机实验研究或准实验外,所有这些我都继续接受,从那时起就停止使用显着性检验或查看P值。我必须补充说,除了制药行业/生命科学领域以及工程领域的某些领域外,随机实验在实践中很少见。


4
您的意思是“除了制药行业和工程领域的某些领域以外,在实践中很少进行随机实验”?随机实验在生物学和心理学中无处不在。
amoeba

我对其进行了编辑,以包括生命科学。
预报者

2
好的,但要说兰德。实验 除医学和生命科学外,“非常罕见”,心理学基本上说它们“非常常见”。所以我不确定你的意思。
amoeba

6

p

p。我仍然认为这是一种适当的方法,将这些发现的科学适用性问题留给了那些内容专家。现在,我们在现代应用程序中发现的错误绝不是统计科学的错误。钓鱼,外推和夸张也是在起作用。确实,如果(说)心脏病专家撒谎并声称将平均血压降低0.1mmHg的药物具有“临床意义”,那么没有任何统计数据可以使我们免受这种不诚实的影响。

我们需要结束决策理论的统计推断。我们应该努力超越假设。临床效用和假设驱动的研究之间日益扩大的差距损害了科学的完整性。“重大”研究极具启发性,但很少保证有任何临床意义的发现。

如果我们检查假设驱动的推理的属性,这是显而易见的:

  • 陈述的原假设是人为的,与当前的知识不一致,并且无视理由或期望。
  • 假设可能与作者试图弥补的观点相切。统计数据很少与随后的文章讨论保持一致,因此作者提出了深远的主张,例如,他们的观察性研究对公共政策和宣传产生了影响。
  • 假设在无法充分定义目标人群的意义上往往是不完整的,并且会导致过度概括

对我而言,替代方案是一种荟萃分析方法,至少是定性分析方法。所有结果均应经过严格审查,并仔细描述其他“相似”发现和差异,尤其是纳入/排除标准,用于暴露/结果的单位或尺度以及效应大小和不确定性区间(最好以95%CI概括)。

我们还需要进行独立的验证性试验。许多人都受到一项看似重大的试验的影响,但是如果没有重复,我们就不能相信这项研究是符合道德的。许多人都是出于伪造证据而从事科学职业的。


“费舍尔最初的建议是,科学家应定性地将p值与研究的功效进行比较,并在那里得出结论。” 我喜欢这一点---您能引用费舍尔在哪里说的参考吗?如果科学家从p <0.05的简单二分法转变为仅是稍微少一点的简单二分法,那将是一个巨大的进步:“如果p <0.05并且功效高,我们就有相当有力的证据。如果p> 0.05或功效很低,我们将保留对该假设的判断,直到获得更多数据为止。”
civilstat '18

6

ppp

医学文献中的两个参考文献是:(1)由MJS的Langman撰写,标题为“ 估计和置信区间”, 以及Gardner MJ和Altman的DG撰写,标题为置信区间而不是{P}值:估计而不是假设检验。


2
实际上,CI并没有显示效果的大小和精度,请参见Morey等人(2015)“在置信区间置信度的谬误”心理公告与评论:learnbayes.org/papers/confidenceIntervalsFallacy
Tim

8
@Tim,漂亮的纸,我以前没看过;我喜欢潜水艇的例子。感谢您的链接。但是应该说这是真正的贝叶斯游击队所写的:“非贝叶斯区间具有令人不快的甚至是离奇的特性,这将导致任何理性的分析家都拒绝它们作为进行推断的手段”。任何合理的分析师!令人印象深刻的傲慢。
变形虫

1
@amoeba同意,我只是提供反例,因为就我而言,备选方案是否像一见钟情那样清晰,直接并不明显。
蒂姆

4
虽然有趣,但我没有找到所有引人注目的潜艇示例。没有思想的统计学家会像例子中那样推理。您不会因为在其他情况下有用而停止思考并将其盲目地应用于所有情况。
dsaxton

2
@amoeba:在该特定报价中,“非贝叶斯区间”专门指该示例中讨论的区间,并非所有区间都由非贝叶斯逻辑证明是合理的。详情请参阅这里:stats.stackexchange.com/questions/204530/…–
richarddmorey

1

我的选择是继续使用p值,但仅添加置信度/可信区间,并可能添加主要结果预测区间。道格拉斯·奥特曼(Douglas Altman)着有一本非常不错的书(《威信统计》,威利公司),而且借助boostrap和MCMC方法,您可以始终构建合理的健壮区间。


6
我认为您并未真正回答主要问题“为什么它们更好?” /“为什么这种方法应该说服您的首席研究员,编辑或读者?”。你可以发展自己的选择吗?
peuhp

1.这仅仅是当前的实践。2.无论如何,都倾向于使用CI进行“后门重要性测试”。3.重要性测试(带有p值或CI)导致可重复性较低(请参见Tim Lash的文章)。4.研究人员不必费心去指定临床上有意义的界限或效应阈值。
AdamO '18年

1

p

  • 开发更复杂的模型,能够模拟目标人群的结果
  • 识别和衡量可以实施拟议的决定,治疗或政策的目标人群的属性
  • 通过模拟估算目标数量(例如生命年,质量调整的生命年,美元,作物产量等)的原始单位的预期损失,并评估该估计的不确定性。

无论如何,这并不排除进行正常的假设显着性检验的可能性,但它强调了具有统计学意义的发现是非常早的,是迈向真正发现的中间步骤,我们应该期望研究人员对他们的发现做更多的工作。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.