了解Gelman&Carlin“超越功率计算:…”(2014)


11

我正在阅读Gelman&Carlin “超越功率计算:评估S型(符号)和M型(幅值)错误”(2014年)。我试图理解主要思想,主要思路,但我感到困惑。有人可以帮我提炼精华吗?

这篇论文是这样的(如果我理解正确的话)。

  • 心理学方面的统计研究经常受到小样本困扰。
  • 在给定的研究中,以统计学上显着的结果为条件,
    (1)可能会严重高估真实的效应量;
    (2)除非有足够大的样本量,否则效应的迹象很有可能相反。
  • 以上是使用对种群效应大小的先验猜测显示的,通常认为效应很小。

我的第一个问题是,为什么要以统计显著性为条件?是否反映了出版偏见?但这似乎并非如此。那为什么呢?

我的第二个问题是,如果我自己进行研究,是否应该对结果进行不同于以往的处理(我做常客统计,对贝叶斯不太熟悉)?例如,我将获取一个数据样本,估算一个模型,并记录一个点估算值,以获取感兴趣的效果以及围绕它的置信度。我现在应该怀疑我的结果吗?如果统计意义重大,还是应该不信任它?给定的任何先前更改如何?

(1)统计研究的“生产者”和(2)应用统计论文的读者的主要收获是什么?

参考文献:

PS:我认为对我来说,新的要点是包括先验信息,我不确定该如何对待(来自常客主义范式)。


如您所见,我很困惑,所以我的问题似乎并不连贯或明智。我将不胜感激任何提示,使我正在研究的论文更有意义。我希望能够随着我对问题的理解的发展提出更明智的问题。
理查德·哈迪

7
请注意,他们从一开始就设定了论文的前提:“ 您刚刚完成了一项实验。您分析了结果, 发现了显着效果成功!但是,请等待-您的研究真正为您提供了多少信息“您对结果有多信任? ” ---他们描述的是当您有意义时会发生什么/暗示什么。他们利用这些后果来激发专注于意义以外的事情。
Glen_b-恢复莫妮卡

您应该不信任自己的结果-是的-如果您运行多个重要性测试并过滤掉所有无关紧要的内容;这是一种“发布偏见”,但它可能在没有任何出版物的情况下发生,仅在一个人的实验室中进行了数月或数年的实验。每个人在某种程度上都会做类似的事情,因此,对以显着结果为条件的教育兴趣浓厚。
变形虫说恢复莫妮卡

@amoeba,好的,但是如果(假设)我仅估计一个模型并且只关注一个预先指定的参数(因此绝对没有多重测试),那么Gelman&Carlin的结果会不会有任何改变?如何包括先前的信息?
理查德·哈迪

2
需要先验信息来评估错误发现率;通常,重要性测试的逻辑只能保证I型错误率P(signif | null)。要估计P(null | signif),您需要先调用一些。那就是Gelman&Carlin在这里所做的。如果仅估计一个模型,那么“错误发现率”是没有意义的(在常识性方法中)。但通常人们会估计许多模型:-),或者至少他们阅读的文献由其他人估计许多模型组成。
变形虫说恢复莫妮卡

Answers:


5

我重新阅读了这篇论文,这次看起来更加清晰了。现在,@ Glen_b和@amoeba的有用评论也很有道理。

整个讨论都基于一个起点,即获得了具有统计意义的结果。以此为条件我们得到的估计效果大小与没有条件的情况不同地分布: 本文似乎针对两个问题:

Pβ^(|β^ is statistically significant)Pβ^().
  1. 发布偏差(仅发布具有统计意义的结果)和
  2. 新研究的设计计算中存在偏差(将太大的预期效果作为基准)。

好消息是,两个问题都可以令人满意地解决。

  1. 给定一个合理的预期效果大小,一个估计的效果大小(假设已发布,因为它具有统计意义,而未发布),则估计了标准误差和估计量的分布族(例如Normal或Student),我们可以回溯效果大小的无条件分布。βplausibleβ^s.e.(β^)tPβ^()
  2. 利用先前的发现,在1.的帮助下,可以确定合理的效应大小并将其用于研究设计。βplausible

简要回答我自己的两个问题:

  1. 这是关于出版物的偏见,尽管不是在数据挖掘方面,而是在研究不足的情况下;有一个统计上显着的结果很可能属于零值下的5%拒绝(因此,零值实际上是真实的,但是我们碰巧最终以偶然的机会最终远离了它),而不是替代项下的拒绝(其中null不为true,结果为“正版”)。
  2. 我对拒绝空值应保持谨慎,因为统计上显着的结果很可能是由于偶然因素(即使机会仅限于5%),而不是由于“真正”效应(由于低功效) 。

2
Glen_b的答案也非常有帮助。
理查德·哈迪

Idk中是否确实存在任何非冗余内容,但我也对该问题写了一个答案,可能会有所帮助。一点:我认为他们不一定提倡使用(在本文中称为)来估算效应量的“真实”分布,而是用它来估算制造S型或根据您当前的测试结果输入M错误。它是贝叶斯(Bayesian),但恕我直言,有点像“贝叶斯精简”(Bayesian-lite);),因为您仍在使用它来解释频繁测试的结果。βplausibleD
Patrick B.

@PatrickB。,谢谢。我待会儿再看。(我知道我之前已经对您的回答进行了投票;这意味着我已经发现它很有帮助。)
理查德·哈迪

1
理查德,我已经开发了一个R函数来估计效应大小的更一般情况下的“ S”型和“ M”型误差,而不是Gelman在正态分布下显示的误差。当您阅读本文时,有一个简单的恢复过程,该过程是从先前的统计意义重大的发现中得出的。但是整个过程完全基于功率分析。从本质上讲,对于较小的噪声研究,SE很大,通过根据经验可验证的合理效果大小假设几个合理的值,您可以获得合理的...
rnorouzian

1
...就避免获得高“ S”型和高夸张率(即“ M”型)所需的样本量而言,对未来研究应包括的内容进行估计。根据记录,盖尔曼的类型“ S”仅是基础效果大小分布下的那一部分,该基础效果大小分布在基础效果的反面除以功率。无论如何,请看一下该功能是否有帮助。
rnorouzian

2

如果您已经在应用贝叶斯分析并且不关心统计显着性部分,那么本文的另一个角度将对您有所帮助。

假设是您要估算的(效果大小)的后CDF 。在贝叶斯情况下,以某种自由表示法并切换到谈论概率密度函数,您将有一个基于一些可观察量以及纯先验的似然函数:PβVβ

p(β|V)p(V|β)p(β)

这里可能是一个向量,在最简单的情况下是多个独立观察的向量,从中可以得出似然项的通常乘积,变成对数项的总和,等等。该向量的长度为a样本量的参数化。在其他模型中,假设是泊松,则可能会将其汇总到泊松参数中,该参数也表示样本大小的参数化。VVp(V|β)

现在,假设您根据文献综述或其他方法做出了一个假设。您可以将假定的数据生成过程与以生成模拟,这些模拟表示如果模型被正确指定并且是真实的效果大小。βplausibleP(V|β)β=βplausibleVβplausible

然后,您可能会做一些愚蠢的事情:转过身来,像观察到的样本就是观察到的数据,然后从整个后验画出一堆样本。从这些样本中,您可以如本文所述计算统计信息。Vβ

链接纸张中的数量,S型错误和夸张率已经几乎代表了同一件事。对于那个效应大小,给定您的模型选择,这些将告诉您给选择的样本大小的给定参数,错误符号的后验概率是多少,以及效应大小之间的期望(后验)比率是多少当您改变任何方面与样本大小有关时,模型产生的值和假定的合理效果大小。VV

最棘手的部分是将后验“幂”解释为后验概率,即的估计值至少与假设值。这不是衡量否定假设的能力的量度,因为从概率论意义上讲,该概率的大小将不会用作重要量度。ββplausible

我真的不知道该怎么称呼,只是说我在实践中已经有多个应用程序,这是推理研究设计的非常有用的指标。它基本上为您提供了一种方法,以了解关于可能性和先验形状的特定假设以导致“足够高”,需要查看需要提供多少数据(假设您的数据完全是通过使用的过程生成的)。一定大小的效应的后验概率。βplausible

在实践中,这对我最有帮助的地方是需要将相同的通用模型重复应用于不同的数据集,但数据集之间的细微差别可能证明更改先前的分布或使用不同的文献综述子集来证明这一点是合理的确定的实用选择,然后粗略诊断一下针对不同数据集的这些调整是否会导致您需要大量更多数据以使后验具有非平凡概率的情况集中在分布的右侧。βplausible

您必须小心,不要有人滥用此“权力”度量标准,因为它与常客权力计算是同一回事,这很难。但是,即使整个建模过程是贝叶斯方法,并且不会引用任何统计显着性结果,所有这些度量标准对于前瞻性和回顾性设计分析都非常有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.