40,000篇神经科学论文可能是错误的

我在《经济学人》上看到了一篇关于看似毁灭性论文的文章 [1] ，该论文令人质疑“ 大约有40,000种已发表的[fMRI]研究。他们说，这种错误是由于“错误的统计假设”。我阅读了这篇论文，发现部分原因是多次比较校正，但是我不是fMRI专家，因此很难遵循。

作者所说的错误假设是什么？为什么要做出这些假设？做出这些假设有哪些方法？

信封计算的背面显示，有40,000张fMRI论文的资金超过10亿美元（研究生的工资，运营成本等）。

[1] Eklund等人，“聚类失败：为什么空间范围的fMRI推论会增加假阳性率，PNAS 2016”

— 格雷格·斯泰西
source

另请参阅有关死鲑鱼功能磁共振成像的论文。wired.com/2009/09/fmrisalmon

— Sycorax

这是一条非常好的线，特别是在神经病理学研究中，因为您可以根据需要完全限制假阳性，但是在权衡取舍时，您会得到巨大的假阴性发生率。

— Firebug

两者之间有一些区别：鲑鱼纸是关于多重比较校正的重要性的一个很好的小寓言，每个人都应该已经做了。相比之下，PNAS发行咬住了试图做“正确的事情”的人，但是更正本身却有点不明智。

— 马特·克劳斯

我认为这是一个很好的问题，因为它是在普遍研究背景下进行这种类型的分析时涉及多重比较校正和关键假设的核心。但是，文本中唯一的问题是“比em有更多知识的人想对此发表评论吗？” 这有点宽泛和不明确。如果可以将其重点放在帮助中心范围内的特定统计问题上，那么它将更适合此论坛。

— Sycorax

谢谢。我编辑了问题以使其更具体。让我知道是否需要对其进行更多编辑。

— R Greg Stacey

关于40000的数字

这个消息真是耸人听闻，但这篇论文确实很有根据。在我的实验室里，讨论持续了几天，总之，这是一个真正必要的批判，使研究人员反省了他们的工作。我建议阅读以下内容的作者之一的作者Thomas Nichols的评论：“集群失败：为什么对空间范围的fMRI推论会增加假阳性率”（抱歉，长引用）。

但是，我后悔一个数字：40,000。在尝试提及功能磁共振成像学科的重要性时，我们使用了整个功能磁共振成像文献的估计值作为受我们的发现影响的研究数量。在我们的辩护中，我们发现了簇大小推断的一般问题（对于P = 0.01 CDT严重，对于P = 0.001有偏见），占主导地位的推断方法，表明大多数文献受到了影响。然而，影响力声明中的数字已经被大众媒体所接受，并引起了一场小型的twitterstorm。因此，我觉得我有责任至少对“我们的工作影响多少篇文章？”做出一个粗略的估计。我不是书目计量学家，这确实是一个粗略的练习，但是希望它可以使您对问题的严重程度有所了解。

分析代码（在Matlab中）如下所示，但这里很枯燥：基于一些合理的概率计算，但也许是脆弱的文献样本，我估计大约有15,000篇论文使用簇大小推论对多种测试进行了校正；其中，大约3500个使用的CDT为P = 0.01。3500篇论文约占整个文献的9％，或者更有用的是，包含原始数据的论文占11％。（当然，这15,000或3500中的某些可能使用非参数推理，但不幸的是，对于fMRI而言，这种情况很少见，相反，它是FSL中用于结构VBM / DTI分析的默认推理工具）。

坦率地说，我认为这个数字会更高，但并没有意识到从未使用任何形式的多重测试校正的大量研究。（如果您不正确，则不能夸大正确的含义！）。这些计算表明13,000篇论文没有进行多次测试校正。当然，其中一些可能使用了感兴趣的区域或子量分析，但是很少（即临床试验类型的结果）完全没有多重性。我们的论文并非直接针对这一群体，但是对于使用民间多次检验校正（P <0.001＆k> 10）的出版物，我们的论文表明该方法的家庭错误率远远超过50％。

那么，我们是说3500篇论文是“错误的”吗？这取决于。我们的结果表明CDT P = 0.01结果具有较高的P值，但是每项研究都必须进行检查……如果影响确实很强，则P值是否有偏倚也可能无关紧要，科学推论将保持不变。但是，如果影响确实很弱，那么结果可能确实与噪声一致。而且，那13,000篇未经更正的论文又如何呢？不，也不应该将它们丢弃，但是这些作品需要特别疲惫的眼睛，尤其是将它们与具有改进方法标准的新参考文献进行比较时。

他还在表末尾包含了该表：

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

基本上，SPM（统计参数映射，Matlab的工具箱）是功能磁共振成像神经科学研究中使用最广泛的工具。如果您查看该论文，将会发现对于SPM中的群集使用P = 0.001（标准）的CDT可以得出几乎预期的按族分类的错误率。

由于该论文的措词，作者甚至填写了勘误表：

鉴于对我们论文Eklund等人的广泛误解，即簇故障：为什么在空间范围上进行fMRI推断会增加假阳性率，所以我们向PNAS编辑部提出了勘误表：

针对Eklund等人的勘误，群集故障：为什么在空间范围内进行fMRI推断会增加假阳性率。埃克伦德，安德斯；尼科尔斯（Thomas E）；汉斯·诺特森

两句话措辞不佳，很容易被高估了我们的结果。

意义声明的最后一句话应为：“这些结果质疑了许多功能磁共振成像研究的有效性，可能对弱显着的神经影像学结果的解释产生重大影响。”

“ fMRI的未来”标题之后的第一句话应为：“由于可悲的归档和数据共享做法，不太可能重做有问题的分析。”

这些替换了两个错误地暗示我们的工作影响了所有40,000出版物的句子（有关对可能受到影响的文献的估计，请参见聚类推断的文献计量学）。

在最初拒绝勘误表之后，PNAS同意改正解释而非事实，因此，PNAS已同意在我们上面提交的过程中予以发布。

关于所谓的Bug

一些新闻还提到一个错误是导致研究无效的原因。确实，AFNI工具之一是对推断的校正不足，并且在preX发布到arXiv中后解决了这一问题。

功能神经影像学中使用的统计推断

功能性神经影像学包括许多旨在测量大脑神经元活动的技术（例如fMRI，EEG，MEG，NIRS，PET和SPECT）。这些基于不同的对比机制。功能磁共振成像基于血氧水平依赖性（BOLD）对比。在基于任务的功能磁共振成像中，给定刺激，负责接收刺激的大脑神经元开始消耗能量，这会触发血液动力学响应，从而改变募集的微细胞附近的磁共振信号（）。 -血管化。 $\approx 5\%$

使用广义线性模型（GLM），您可以确定哪些体素信号时间序列与实验范式的设计相关联（通常是布尔型时间序列，具有典型的血液动力学响应函数，但是存在变化）。

因此，此GLM给您每个体素时间序列与任务多少相似。现在，假设您有两组人：通常是患者和对照组。比较各组之间的GLM得分可用于显示各组情况如何调节其大脑“激活”模式。

在各组之间按体素进行比较是可行的，但是由于设备固有的点扩展功能以及平滑的预处理步骤，因此无法期望体素单独携带所有信息。实际上，组之间的体素差异应该分布在相邻的体素上。

因此，执行逐组比较，即仅考虑形成簇的组之间的差异。这种簇范围阈值化是 fMRI研究中最流行的多重比较校正技术。问题就在这里。

SPM和FSL依靠高斯随机场理论（RFT）进行FWE校正的体素和聚类推理。但是，RFT聚类推理取决于另外两个假设。第一个假设是fMRI信号的空间平滑度在大脑中是恒定的，第二个假设是空间自相关函数具有特定的形状（平方指数）（30）

在SPM中，至少必须设置名义FWE速率以及群集定义阈值（CDT）。基本上，SPM会发现与任务高度相关的体素，并在使用CDT进行阈值处理后，将相邻的体素聚合到群集中。在给定FWER集[ 1 ]的情况下，将这些聚类大小与根据随机场理论（RFT）得出的预期聚类范围进行比较。

随机场理论要求活动图是平滑的，并且是随机场的良好晶格近似。这与应用于体积的平滑量有关。平滑还会影响残差呈正态分布的假设，因为根据中心极限定理，平滑将使数据更具高斯性。

作者在[ 1 ]中显示，与从随机排列测试（RPT）获得的聚类范围阈值相比，RFT的预期聚类大小确实很小。

在他们最近的论文中，使用静止状态（fMRI的另一种形式，指示参与者不要特别思考）数据，就像人们在获取图像期间执行任务一样，并且对组进行体素和聚类比较-明智的。观察到的假阳性错误（即，当您观察到组之间对虚拟任务的信号响应的差异时）的比率应合理地低于在处设置的预期FWE比率。在具有不同范式的随机抽样组中，对这种分析进行了数百万次重做，结果表明，大多数观察到的FWE率高于可接受的值。 $\alpha = 0.05$

@amoeba在评论中提出了以下两个高度相关的问题：

（1）Eklund等。PNAS论文讨论了所有测试的“标称5％水平”（例如，参见图1中的水平黑线）。但是，同一图中的CDT是变化的，例如可以为0.01和0.001。CDT阈值与标称I类错误率如何相关？我对此感到困惑。（2）您是否看到了卡尔·弗里斯顿的回复 http://arxiv.org/abs/1606.08199？我读了它，但是我不太确定他们在说什么：我是否正确地看到他们同意Eklund等人的观点？但这是一个“众所周知的”问题吗？

（1）好问题。我实际上查看了我的参考文献，让我们看看现在是否可以使其更加清晰。逐簇推断是基于在应用主阈值（CDT，它是任意的）之后形成的簇的范围。在二次分析一个上每个集群体素的数量的阈值被应用。此阈值基于空群集范围的预期分布，可以从理论（例如RFT）进行估计，并设置名义FWER。一个很好的参考是[ 2 ]。

（2）感谢您的参考，以前没有看过。Flandin和Friston认为Eklund等人。之所以支持RFT推论，是因为他们基本上表明，尊重其假设（关于CDT和平滑），结果是无偏见的。在这种情况下，新的结果表明，由于打破了RFT的假设，文献中的不同实践往往会推论出偏见。

关于多重比较

同样众所周知的是，许多神经科学方面的研究并未校正多重比较，估计范围为文献的10％至40％。但是，这些主张并没有得到解释，每个人都知道这些论文具有脆弱的有效性，并且可能有巨大的假阳性率。

在FWER上超过70％

作者还报告了产生FWER超过70％的程序。此“民间”过程包括应用CDT仅保留高度重要的聚类，然后应用另一个任意选择的聚类范围阈值（以体素数表示）。这有时被称为“集合推论”，其统计基础薄弱，并且可能产生最不值得信赖的结果。

以前的报告

同一作者已经在单个分析中报告了SPM [ 1 ] 有效性的问题。在这一领域也有其他引用的作品。

奇怪的是，关于基于模拟数据的小组和个人级别分析的几份报告得出结论，RFT阈值实际上是保守的。随着处理能力的最新发展，尽管RPT可以更轻松地在真实数据上执行，这显示了RFT的巨大差异。

更新：2017年10月18日

去年6月[ 3 ] 出现了有关“集群故障”的评论。有穆勒等。Eklund等人提出的结果可能是由于他们的研究中使用了特定的成像预处理技术所致。基本上，他们在平滑之前将功能图像重新采样为更高的分辨率（虽然可能不是每个研究人员都做过，但这是大多数fMRI分析软件中的常规程序）。他们还指出，弗兰丁和弗里斯顿没有。实际上，我在同一个月的温哥华人脑图谱（OHBM）年会上看到了Eklund的讲话，但是我不记得任何有关此问题的评论，但这似乎对这个问题至关重要。

[1] Eklund，A.，Andersson，M.，Josephson，C.，Johannesson，M.和Knutsson，H.（2012）。具有SPM的参数fMRI分析是否能产生有效的结果？—对1484个其余数据集的实证研究。NeuroImage，61（3），565-578。

[2] Woo，CW，Krishnan，A。和Wager，TD（2014）。功能磁共振成像分析中基于聚类范围的阈值分析：陷阱和建议。Neuroimage，91，412-419。

[3] Mueller，K.，Lepsien，J.，Möller，HE，＆Lohmann，G.（2017年）。评论：聚类失败：为什么在空间范围内fMRI推论会增加假阳性率。人类神经科学前沿，11。

— 萤火虫
source

@Qroid是的，第一部分是不成立的（这可能是非参数置换测试良好性能的原因）。簇是体素的簇，即显示相同效果的相邻体素。有一个p值来定义集群（集群定义阈值）。

— Firebug

这个答案主要集中在40000还是其他数字上，但是我认为如果您可以总结一下主要的争论（集群是什么？假设检验的空间相关性是什么问题？真的想过这个吗？等等）

— amoeba

再次感谢。简要看一下Woo等人之后。2014年，我现在再确定为什么Eklund等人。进入PNAS，因此在大众媒体和博客周围引起了轩然大波。Woo't Woo等。说的或多或少是同一件事？就在他们的“亮点”一词中：“另一个陷阱是，使用宽松的主要阈值时假阳性增加”。

— 变形虫

我懂了。因此，我的理解是，从科学上讲，现在并没有真正发生什么事：自由CDT的问题已为人所知多年，在多篇论文中进行了讨论，并在各种研究人员的各种模拟中得到了证明。（但是，尽管如此，一些研究人员仍在继续使用这种危险的自由CDT。）Eklund等。2016年很幸运能在“高调”期刊上发表，并且嘘！-现在每个人都在谈论它，好像它是一个启示。

— 变形虫

@amoeba神经科学界需要进行统计上的打击，这类似于应用心理学中发生的事情（也许不像禁止p值那样激烈）。许多声称具有统计意义的论文没有严格的统计意义，人们使用使“结果出现”的工具和参数。

— Firebug