“科学家奋起反抗统计意义”是什么意思？（自然评论）

61

《自然科学家评论》的标题与统计意义背道而驰，其开头为：

瓦伦丁·阿姆海因（Valentin Amrhein），桑德·格陵兰（Sander Greenland），布莱克·麦克沙恩（Blake McShane）和800多个签署国呼吁结束大肆宣传的主张，并取消可能产生的关键影响。

稍后包含如下语句：

再一次，我们不主张禁止使用P值，置信区间或其他统计指标，而只是禁止对它们进行分类。这包括在统计上是否有意义的二分法，以及基于其他统计量（例如贝叶斯因子）的分类。

我想我可以理解，下面的图像并不表示这两项研究不同意，因为其中一项“排除”了无效，而另一项则没有。但是这篇文章似乎比我理解的要深入得多。

到最后，似乎有四个要点。对于那些阅读统计数据而不是编写统计数据的人来说，是否可以用更简单的术语来概括这些内容？

在谈论兼容性间隔时，请记住四件事。

首先，仅在给出假设的前提下，因为间隔给出的值与数据最兼容，这并不意味着其外的值是不兼容的。他们只是不太兼容...

其次，在给定假设的情况下，并非内部的所有值都与数据同等兼容...

第三，就像它产生的0.05阈值一样，用于计算间隔的默认95％本身就是一个任意约定...

最后，也是最重要的一点，要谦虚：兼容性评估取决于用于计算间隔的统计假设的正确性...

statistical-significance p-value bias

— ho
source

13

基本上，他们希望在研究论文中填充更多误报！

— David

12

请参阅Gelman博客上的讨论：statmodeling.stat.columbia.edu/2019/03/20/…。显然，本文提出了一些有效的观点，但请参阅盖尔曼引用的Ioannidis 对本文提出的评论（也分别针对本文的“请愿书”方面）。

— 变形虫说莫妮卡

3

不过，这不是一个新概念。过去50年来，荟萃分析一直是一件很重要的事情，在过去的25年中，Cochrane一直在进行医学/保健研究的荟萃分析（更容易将目标和结果标准化）。

— 格雷厄姆

4

从根本上讲，问题是试图将“不确定性”降低到一个数字，这是一个多维问题。

— MaxW

4

基本上，当发现时，如果人们说“我们没有发现X和Y之间有关联的证据”，而不是“ X和Y不相关”，那么这篇文章就不太可能存在。

p > α

$p>\alpha$

— Firebug

65

据我所知，前三点是对单个论点的变体。

科学家通常将不确定性度量（例如）视为如下所示的概率分布： $12 \pm 1$

实际上，它们更有可能看起来像这样：

作为前化学家，我可以证实许多具有非数学背景的科学家（主要是非物理化学家和生物学家）并不真正理解不确定性（或错误，如他们所说）是如何工作的。他们回想起在本科物理学中曾经不得不使用它们的时间，甚至可能不得不通过几种不同的测量来计算复合误差，但他们从未真正理解过它们。我也对此感到内,，并假设所有测量值都必须在间隔内。仅在最近（以及学术界以外），我才发现误差测量通常是指一定的标准偏差，而不是绝对极限。 $\pm$

因此，要分解文章中的编号点：

CI之外的测量仍然有发生的可能，因为实际（可能是高斯）概率在该处（或在任何情况下都不为零），尽管当您走得很远时它们会逐渐消失。如果之后的值确实表示一个sd，则仍然有32％的机会使数据点落在它们之外。 $\pm$
分布不均匀（如上图所示，顶部平坦），已达到峰值。与在边缘相比，您更可能在中间获得价值。这就像掷一堆骰子，而不是掷出一个骰子。
95％是任意截止值，几乎与两个标准偏差完全重合。
这一点通常是对学术诚实的评论。在博士期间，我意识到科学不是某种抽象力量，而是尝试科学的人们的不断努力。这些人试图发现有关宇宙的新事物，但同时也试图让孩子饱食并保持工作，不幸的是，在现代，这意味着某种形式的出版或灭亡正在发挥作用。实际上，科学家依赖真实且有趣的发现，因为无趣的结果不会导致发表论文。

诸如这样的任意阈值通常可以自我延续，尤其是在那些不完全了解统计信息并且只需要在结果上通过/未通过标记的人。因此，人们有时会开玩笑地谈论“再次运行测试，直到得到 ”。这可能是非常诱人的，尤其是如果博士学位/补助金/就业情况取决于结果时，这些边际结果将一直徘徊，直到分析中显示所需的。 $p < 0.05$ $p < 0.05$ $p = 0.0498$

这样的实践可能对整个科学有害，特别是如果广泛地进行，都是在追求自然界无意义的数字。实际上，这部分内容是在鼓励科学家对自己的数据和工作保持诚实，即使这种诚实对他们有害。

— Ingolifs
source

26

+1表示“ ...出版或灭亡正在发挥作用。实际上，科学家依赖真实且有趣的发现，因为无趣的结果不会导致出版。” 几年前，有一篇有趣的论文谈到了这种“发表或灭亡”是如何导致整个学术界的错误/偏见加重的：为什么大多数已发表的研究结果都是错误的（Ioannidis，2005年）

— J. Taylor

4

我不同意“真正的（可能是高斯）不确定性……” –高斯是另一个过分简化的现象。多亏了中央极限定理，它比硬极限模型更具合理性，但实际分布通常还是有所不同。

— 在

1

@leftaroundabout实际分布可能仍然有所不同，但是除非该值在物理上是不可能的，否则该概率在数学上仍可能仍为非零。

— Gerrit

3

@leftaroundabout表示不确定性很可能不是高斯本质上不是一种简化。它描述了一个先验分布，在没有其他支持数据的情况下，CLT认为这是最好的先验分布，但是通过对分布表示不确定性，可以确认该分布很可能不是高斯分布。

— 威尔

7

@inisfree您非常非常误解。许多科学学科（如我之前所说的化学和生物学）除基本算术外还使用几乎为零的数学。否则，那里有一些才华横溢的科学家，他们几乎都没有数学知识，而我遇到了其中的一些人。

— Ingolifs

19

本文中的许多内容和所包含的图很简单：

缺乏效果的证据并不表示它不存在。

例如，

“在我们的研究中，给予氰化物的小鼠并未以统计学上显着较高的死亡率死亡”，这并不是“氰化物对小鼠死亡无影响”这一说法的证据。

假设我们给两只老鼠服用一定剂量的氰化物，其中一只死亡。在两只小鼠的对照组中，都没有死亡。由于样本量非常小，因此该结果在统计学上不显着（）。因此，该实验并未显示出氰化物对小鼠寿命的统计学显着影响。我们是否应该得出结论氰化物对小鼠没有影响？显然不是。 $p > 0.05$

但这是作者声称科学家经常犯的错误。

例如，在您的图中，红线可能来自对极少数小鼠的一项研究，而蓝线可能源自完全相同的研究，但对许多小鼠。

作者建议，科学家们不使用效应大小和p值，而是描述与其研究结果或多或少兼容的可能性范围。在我们的两鼠实验中，我们必须写出我们的发现既与氰化物有毒，也完全没有毒相符。在一个100鼠标的实验中，我们可能会发现死亡的置信区间范围，其点估计值为 $[60\%,70\%]$ $65\%$ 。然后，我们应该写出我们的结果与以下假设最相符：该剂量杀死了65％的小鼠，但我们的结果也与低至60或高至70的百分比具有一定的兼容性，并且我们的结果不那么兼容超出这个范围的真理。（我们还应该描述我们为计算这些数字所做的统计假设。）

— 高利贷
source

4

我不同意这一笼统的说法，即“缺乏证据不是缺乏证据”。功效计算可让您确定在给定特定样本大小的情况下，将特定大小的影响视为有效的可能性。较大的效应需要较少的数据，以将其视为与零显着不同，而较小的效应则需要较大的样本量。如果您的研究得到了适当的支持，而您仍然没有看到明显的效果，那么您可以合理地得出结论，这种效果不存在。如果您有足够的数据，则不重要实际上可以表示没有任何效果。

— 核王

1

@NuclearWang是的，但前提是事先进行了功效分析，并且只有在使用正确的假设然后进行正确的解释的情况下进行（即，您的功效仅与您预测的效应大小的大小有关；“ 80％功率”并不意味着您有80％的概率可以正确检测到零影响。另外，以我的经验，“非显着”的意思是“无影响”通常用于次要结果或罕见事件，无论如何（适当地）该研究没有动力。最后，beta通常是>> alpha。

— Bryan Krause

9

@NuclearWang，我认为没有人在争论“没有证据就是从不存在缺席证据”，我认为他们在争论不应自动将其解释为如此，这是他们看到的人犯的错误。

— 美国UL

几乎就像人们没有接受过等效性测试一样。

— Alexis

19

我会尽力。

置信区间（他们将其重命名为兼容性间隔）显示与数据最兼容的参数值。但这并不意味着间隔之外的值与数据绝对不兼容。
置信度（兼容性）区间的中间附近的值比区间两端附近的值与数据更兼容。
95％只是一个惯例。您可以计算90％或99％或任何％的间隔。
置信度/兼容性区间仅在实验正确完成时，根据预设计划进行分析且数据符合分析方法假设的情况下才有用。如果您对不良数据进行了不良分析，那么兼容性间隔就没有意义或没有帮助。

— 哈维·莫图尔斯基
source

10

很棒的XKCD不久前就做了这幅漫画，说明了这个问题。如果将结果简单地视为证明了一个假设（而且常常是这样），那么如此证明的20个假设中就有1个实际上是错误的。类似地，如果被取为反驳一个假说然后1 20真假设将被错误地拒绝。P值不会告诉您假设是正确还是错误，而是告诉您假设可能是正确还是错误。所引用的文章似乎在反击这种过于天真的解释。 $P\gt0.05$ $P\lt0.05$

— 数字化
source

8

（-1），P值不告诉你一个假设是否可能是真还是假。您需要为此进行事前分发。例如，请参见此xkcd。导致这种混淆的有问题的挥舞手法是，如果我们对大量假设具有相似的先验先验，则p值将与为真或为假的概率成比例。但是在看到任何数据之前，某些假设比其他假设更有可能！

— Cliff AB

3

尽管这种效果不容小discount，但它远不是所引用文章的重点。

— RM

6

文艺青年最爱的 - 这是根本不可能证明事情是不相关的; 统计信息仅可用于显示事物之间的关联时间。尽管存在这一公认的事实，但人们经常误解缺乏统计意义的事实，暗示缺乏关系。

好的加密方法应生成一个密文，据攻击者所知，该密文不会与受保护的消息存在任何统计关系。因为如果攻击者可以确定某种关系，那么他们只需查看密文即可获取有关受保护消息的信息，这是Bad Thing ^TM。

但是，密文及其对应的明文100％相互决定。因此，即使世界上最好的数学家无论他们如何努力也找不到任何重要的关系，我们仍然显然知道这种关系不仅存在，而且是完全确定的。即使我们知道不可能找到关系，这种确定性也可能存在。

尽管如此，我们仍然会吸引那些会做类似的事情的人：

选择一些他们想“ 反驳 ”的关系。
对它进行一些研究以发现不足的关系。
报告缺少统计上显着的关系。
扭曲成缺乏关系。

这导致各种“ 科学研究 ”，媒体将（错误地）报道为证明某种关系的存在。

如果您想围绕此设计自己的研究，可以采用多种方法：

懒惰的研究：
到目前为止，最简单的方法就是对其进行超级懒惰。就像从问题中链接的该图开始一样：。您可以轻松获得，因为样本量小，噪声大，以及其他各种懒惰的东西。实际上，如果您懒得收集任何数据，那么您已经完成！
$\hspace{50px}$
$`` {\small{\color{darkred}{\begin{array}{c} \text{'Non-significant' study} \\[-10px] \left(\text{high}~P~\text{value}\right) \end{array}}}} "$
惰性分析：
由于某些愚蠢的原因，有人认为Pearson相关系数为表示“ 无相关 ”。从非常有限的意义上讲，这是对的。但是，这里有一些情况需要观察：。这是可能不存在“ 线性 ”关系，但显然可能存在更复杂的关系。而且，它不必是“ 加密 ”级别的复杂对象，而是“ 它实际上只是一条弯曲的线 ”或“ 有两个关联 ”或其他任何东西。 $0$
$\hspace{50px}$
懒惰的回答：
本着上述精神，我将在这里停止。要知道，要懒惰！

但是，认真的说，这篇文章很好地总结为：

让我们清楚必须停止什么：我们永远不能仅仅因为P值大于阈值（例如0.05）或等效地因为置信区间包括零，而得出结论“没有差异”或“没有关联”。

— 纳特
source

+1使您所写的内容既真实又发人深省。但是，以我的拙见，您可以证明在某些假设下两个量是合理不相关的。您必须首先偏离路线，例如，假设它们之间有一定分布，但这可以基于物理定律或统计数据（例如，容器中气体分子的速度应为高斯等）

— ntg

3

@ntg是的，很难知道该如何用词表达，所以我遗漏了很多东西。我的意思是，一般的事实是，尽管我们通常可以证明不存在某种特定的关系，但我们不能反驳某些关系的存在。像sorta一样，我们无法确定两个数据序列是不相关的，但是我们可以通过简单的线性函数来确定它们似乎不可靠地相关。

— 纳特

1

-1“ tl; dr-根本上不可能证明事物无关”：等效性检验提供了在任意效应量范围内不存在效应的证据。

— Alexis

2

@Alexis我认为您误会了等效性测试；您可以使用等效测试来证明不存在某种关系，例如线性关系，但不能证明不存在任何关系。

— 纳特

1

@Alexis统计推断可以为您提供在某种模型的情况下没有比特定效果大小更大的效果的证据。也许您假设该模型将永远为人所知？

— 纳特

4

为了对问题进行有说服力的介绍，亚历克斯·莱因哈特（Alex Reinhart）编写了一本完全在线可用的书，并在No Starch Press（具有更多内容）上进行了编辑：https : //www.statisticsdonewrong.com

它无需复杂的数学就可以解释问题的根源，并在特定的章节中提供了来自模拟数据集的示例：

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

在第二个链接中，一个图形示例说明了p值问题。P值通常用作数据集之间统计差异的单一指标，但仅凭其本身显然还不够。

编辑以获得更详细的答案：

在许多情况下，研究旨在重现精确类型的数据，包括物理测量（例如在特定实验中加速器中的颗粒数量）或定量指标（例如在药物测试中出现特定症状的患者数量）。在任何一种情况下，许多因素都会干扰测量过程，例如人为错误或系统变化（人们对同一药物的反应不同）。这就是为什么如果可能的话，实验通常要进行数百次，并且最好在数千名患者中进行药物测试的原因。

然后，使用统计数据将数据集简化为最简单的值：均值，标准差等。通过平均值对模型进行比较的问题在于，测量值仅是真实值的指标，并且还会根据各个测量的数量和精度在统计上发生变化。我们有办法很好地猜测哪些度量可能是相同的，哪些度量不相同，但只能有确定性。通常的阈值是说，如果我们说出两个值不同的错误率不到二十分之一，则我们认为它们“在统计上是不同的”（这就是的意思），否则我们不会得出结论。 $P<0.05$

这导致了《自然》杂志上的文章得出的奇怪结论，其中两个相同的度量给出相同的平均值，但研究人员的结论由于样本的大小而有所不同。这以及统计词汇和习惯带来的其他比喻在科学中变得越来越重要。问题的另一方面是，人们倾向于忘记使用统计工具并得出结论，而没有正确验证样本的统计能力。

再举一个例子，最近的社会科学和生命科学正经历着一场真正的复制危机，因为事实是，许多影响是由那些没有检查著名研究的适当统计能力的人认为是理所当然的（而其他人则伪造了数据）。但这是另一个问题）。

— 克拉维尔
source

3

虽然不仅是链接，但此答案具有“ 仅链接答案 ”的所有显着特征。要改善此答案，请将关键点纳入答案本身。理想情况下，即使链接的内容消失了，您的答案也应该是有用的答案。

— RM

2

关于p值和基准利率谬误（在链接中提到），Veritasium发布了该视频，称为贝叶斯陷阱。

— jjmontes

2

抱歉，我将尽力改善和发展答案。我的想法也是为好奇的读者提供有用的材料。

— G.Clavier

1

@ G.Clavier和自我描述的统计新手和好奇的读者表示赞赏！

— uhoh

1

@uhoh很高兴阅读它。:)

— G.Clavier

4

对我来说，最重要的部分是：

... [我们]敦促作者讨论点估计，即使它们具有较大的P值或较宽的间隔，并讨论该间隔的极限。

换句话说：高度重视讨论估计值（中心和置信区间），而不太重视“零假设检验”。

在实践中这是如何工作的？许多研究归结为衡量效果的大小，例如“我们测得的风险比率为1.20，95％的CI为0.97至1.33”。这是一项合适的研究总结。您可以立即看到最可能的效应大小和测量的不确定性。使用此摘要，您可以快速将此研究与其他类似研究进行比较，并且理想情况下，您可以将所有发现合并在加权平均值中。

不幸的是，这类研究通常被总结为“我们没有发现危险比的明显增加”。这是以上研究的有效结论。但这不是该研究的合适总结，因为您无法使用这些摘要轻松比较研究。您不知道哪项研究的测量最为精确，也无法直觉得出元研究的结果。而且，当研究声称拥有很大的置信区间以至于您可以在其中隐藏一头大象时，您不会立即发现研究声称“风险比率显着增加”。

— 马丁·J·H
source

那取决于一个人的零假设。例如，拒绝可提供证据，表明没有比任意小的。

H_{0} : | θ | \geq Δ

$H_{0}:|\theta|\ge \Delta$

Δ

$\Delta$

— Alexis

1

是的，但是为什么还要麻烦讨论这样的假设呢？您可以只说明测得的效果大小，然后讨论最佳/最坏情况的后果是什么。例如，在测量质子和反质子之间的质荷差时，物理学上通常会这样做。作者本可以选择制定一个零假设（也许按照您的示例，其绝对差大于某个）并继续对其进行检验，但在这种讨论中几乎没有附加值。

θ \pm δ θ

$\theta\pm\delta\theta$

Δ

$\Delta$

— 马丁JH

3

统计人员，不仅是科学家，正在崛起并反对宽松使用“重要性”和值，这是“重要的” 。最新一期的 《美国统计学家》完全致力于这个问题。尤其请参见Wasserman，Schirm和Lazar的主要社论。 $P$

— rvl
source

谢谢你的链接！令人大开眼界；我没有意识到对此有太多的思考和辩论。

— uhoh

2

事实上，由于多种原因，p值确实成为一个问题。

但是，尽管它们有缺点，但它们具有重要的优点，例如简单和直观的理论。因此，尽管总体上我同意《自然评论》，但我确实认为，与其完全放弃统计学意义，还需要一个更加平衡的解决方案。以下是一些选择：

1.“将关于新发现的统计显着性的默认P值阈值从0.05更改为0.005”。我认为，本杰明等人很好地解决了反对采用更高证据标准的最有说服力的论点。

2.采用第二代p值。这些似乎是解决影响经典p值的大多数问题的合理解决方案。正如Blume等人在这里所说的，第二代 p值可以帮助“提高统计分析的严谨性，可重复性和透明度”。

3.将p值重新定义为“确定性的定量度量—“信心指数” –所观察到的关系或主张是真实的。这可以帮助将分析目标从实现重要性转变为适当地估计此置信度。

重要的是，“如果结果以严格的方法解决重要的研究问题，则未达到统计学显着性或“信心”阈值的结果仍将是重要的，并值得在领先的期刊上发表。

我认为这可以帮助减轻领先期刊对p值的痴迷，这是对p值滥用的原因。

— 克兰兹
source

感谢您的回答，这很有帮助。我将花一些时间阅读Blume等。关于第二代p值，它似乎很易读。

— uhoh

1

@uhoh，很高兴我的回答对您的问题有所帮助。

— 克兰兹

1

尚未提及的一件事是，误差或重要性是统计估计值，而不是实际的物理测量值：它们在很大程度上取决于您可用的数据以及处理方式。如果已测量每个可能的事件，则只能提供错误和重要性的精确值。通常情况并非如此，远非如此！

因此，每个误差或重要性的估计（在这种情况下为给定的P值）在定义上都是不准确的，因此不应被信任地描述基础研究–更不用说现象了！- 准确。实际上，在不了解所表示的内容，如何估计错误以及如何对数据进行质量控制的情况下，不应该传达任何关于结果的信息。例如，减少估计误差的一种方法是消除异常值。如果通过统计也已将其去除，那么您如何才能真正知道异常值是真实错误，而不是应该包括在错误中的不太可能的真实测量值？减少的误差如何提高结果的重要性？接近估算值的错误测量结果如何？他们进步了 错误并可能影响统计意义，但可能导致错误的结论！

为此，我进行了物理建模，并自己创建了模型，其中3-sigma错误完全是非物理的。也就是说，从统计学上讲，每千个事件中大约有一个事件（比这更频繁，但我离题了），这将导致完全荒谬的价值。在我的领域中，3个间隔误差的大小大致等于时不时地具有1厘米的最佳估计值。但是，当提供根据我所在领域的物理，经验数据计算出的统计+/-间隔时，这确实是一个可接受的结果。当然，可以考虑不确定性区间的狭窄程度，但是即使标称误差区间更大，最佳猜测估计值也往往更有用。

附带说明一下，我曾经亲自负责千分之一的异常值中的一个。当我们应该测量的事件发生时，我正在对仪器进行校准。data，该数据点将恰好是这100倍异常值中的一个，因此从某种意义上说，它们确实发生了，并被包括在建模错误中！

— Geenimetsuri
source

“只有测量了所有可能的事件，您才可以提供准确的测量结果。” 嗯那么，准确性是没有希望的吗？还有无关紧要的吗？请扩大准确度和偏差之间的差异。不准确的估计是有偏见还是无偏见？如果它们没有偏见，那么它们不是很有用吗？“例如，减少错误的一种方法是消除异常值。” 嗯这将减少样本方差，但是会出现“错误”？“ ...即使在标称误差区间较大的情况下，最佳猜测估计值通常也更有用”，我不能否认先验好于坏实验。

— Peter Leopold

根据您的评论稍微修改了文本。我的意思是，除非可以进行所有可能的单独测试，否则统计上的错误度量永远都是估计值。很少发生这种情况，除非进行民意调查（nb并非来自较大人群或普通人群的样本）。

— Geenimetsuri

1

我是一个使用统计学而不是统计学家的从业者。我认为p值的一个基本问题是，许多不熟悉p值的人会将其混淆为实质性意义。因此，我被要求通过使用p值来确定哪些斜率很重要，而与斜率是否大无关。一个类似的问题是使用它们来确定变量的相对影响（这对我很关键，但是在回归文献中却很少受到关注）。

— user54285