为什么贝叶斯方法不需要多次测试校正？

22

安德鲁·盖尔曼（Andrew Gelman）写了一篇广泛的文章，论述为什么贝叶斯AB测试不需要多个假设校正：为什么我们（通常）不必担心多重比较，2012年。

我不太了解：为什么贝叶斯方法不需要多次测试更正？

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

我的理解是，以上显示的贝叶斯方法解释了所有假设的共同基础分布（与常客Bonferroni修正不同）。我的推理正确吗？

hypothesis-testing bayesian multiple-comparisons

— 变形虫说恢复莫妮卡
source

我会遵循安德鲁·盖尔曼（Andrew Gelman）的例子：为什么我们（通常）不必担心多重比较，2012年。另请参见他的博客。

— Patrick McCann

5

帕特里克（Patrick）的链接非常有帮助，但很高兴看到针对“中等统计素养的科学评论者”的更完整的答案。

— 推测

14

回答这个问题的一种奇怪方法是，注意到贝叶斯方法无法做到这一点，因为贝叶斯方法与公认的证据规则是一致的，而常识性方法常常与它们不一致。例子：

根据常客统计，由于家庭I型错误的考虑，比较治疗A与B必须对比较治疗C和D进行惩罚。与贝叶斯算法相比，AB比较是独立的。
对于顺序的频繁测试，通常需要对数据进行多次查看才能受到惩罚。在小组顺序设置中，必须对A与B的早期比较进行惩罚，以进行尚未进行的以后的比较，并且即使早期的比较没有改变过程，也必须对早期的比较进行惩罚。研究。

问题源于常客对时间和信息流的逆转，使得常客不得不考虑可能发生的事情而不是已发生的事情。相反，贝叶斯评估将所有评估锚定在先验分布上，从而校准了证据。例如，AB差异的先前分布可校准AB的所有未来评估，而不必考虑CD。

对于顺序测试，当使用频率推断法提前终止实验时，如何调整点估计值存在很大的困惑。在贝叶斯世界中，任何点估计值的先验“拉回”，更新的后验分布在任何时候都适用于推理，不需要复杂的样本空间考虑。

— 弗兰克·哈雷尔
source

4

我不太明白这个说法。如果我们使用通常的频繁使用方法进行1000次不同的比较，那么即使在零值情况下，我们当然也应该期望大约50个有效值，p <0.05。因此更正。如果我们改用贝叶斯估计/检验，所有比较都具有先验值（大约为0？），那么是的，先验值会将后验因子缩小为零，但我们仍将具有随机变化的后验因子和/或贝叶斯因子，并且可能会有一些在1000的情况下，即使真实效果全为零，也看起来像“实质性”效果。

— 变形虫说恢复莫妮卡

1

@amoeba-一种考虑方式是贝叶斯考虑所有替代方案-不仅仅是“空”对“一个替代方案”。考虑到所有替代手段，通常每个人都有较小的先验概率-有效地惩罚了推论。您必须考虑所有对/错的组合（假设您对不可能的组合没有先验知识）。您担心“仅一种情况”出现问题。其他案例又如何呢？

2^{1000}

$2^{1000}$

2^{1000} - 1

$2^{1000}-1$

— 概率

1

抱歉，@ probabilityislogic，我不确定我是否理解您的观点。关于“所有替代方案”足够公平，但是实际上会发生什么？就像我说的，我们估计有1000个群组差异（例如）；我们在团体差异上有先验；我们获得1000个后继者，95％的可信区间或其他。然后，我们将检查每个可信的间隔，以检查它是否离零足够远，从而不会产生“有意义/实质性”的影响。如果我们执行1000次此操作，则在某种意义上说，即使实际上所有1000个效果都等于零，某些效果也会显得很大，这很可能会产生“误报”。没有？

— 变形虫说恢复莫妮卡

1

@amoeba-您的论点取决于这间隔/拒绝是否独立。在实践中，人们通常不会检验大量无关的假设。因此，多层次模型-捕获共同的影响。这将使那些可靠的间隔一起移动（即它们将具有相关的采样分布）。当使用不良模型时，这将导致更多的误报，而在使用不良模型时，将导致更少的误报。当然，好坏取决于将足够的信息整合到模型中。

1000

$1000$

— 概率

1

@probabilityislogic：好吧，尽管我不一定认为多级模型一定是贝叶斯工具，但我绝对赞成多级模型-混合模型和具有随机效应的ANOVA通常与t检验等一起使用

— 变形虫说恢复莫妮卡

6

对于少量到中等数量的假设，这种类型的层次模型确实会缩小估计值并在合理程度上减少虚假声明的数量。它可以保证某些特定的I型错误率吗？没有。

盖尔曼（Gelman）提出的这个特殊建议（他承认问题是看了太多不同的事物，然后很容易错误地断定您为其中的某些事物看到了某些东西-实际上是他博客上的他的宠物话题之一）与极端的选择不同。认为贝叶斯方法不需要考虑多重性的观点，因为所有问题都取决于您的可能性（以及您的先验）。

— 比约恩
source

1

（+1）据我所知，在某些情况下（例如，具有先验匹配的无量纲），贝叶斯推理无法对1型错误率提供任何控制。因此，IHMO不能将贝叶斯设置中的多重测试校正视为对类型1错误的校正。

— peuhp

3

+1。在生活中令人毛骨悚然的讽刺之一中，我写了一篇论文“为什么我们（通常）不必担心多重比较”，但现在我花了很多时间担心多重比较（Gelman）

— 变形虫说恢复莫妮卡

6

非常有趣的问题，这是我的看法。

全部与编码信息有关，然后转动贝叶斯曲柄。似乎太好了，难以置信-但是这两者都比看起来难。

我先问一个问题

当我们担心多重比较时，会使用什么信息？

我可以想到一些-第一个是“数据挖掘”-测试“一切”，直到获得足够的通过/失败（我认为几乎每个受过统计学训练的人员都将面临这个问题）。您的险恶程度也较小，但本质上是相同的：“我要运行很多测试-肯定所有测试都不正确”。

考虑了这一点之后，我注意到的一件事是，您不太会听到有关特定假设或特定比较的信息。都是关于“集合”的-这触发了我对可交换性的思考-被比较的假设在某种程度上彼此“相似”。以及如何将可交换性编码为贝叶斯分析？-超优先级，混合模型，随机效果等！！！

但是可交换性只会让您成为其中的一部分。一切都可以交换吗？还是您具有“稀疏性”-例如只有少数非零回归系数以及大量候选对象。混合模型和正态分布随机效应在这里不起作用。它们在挤压噪声和保持信号不变之间陷入“卡住”状态（例如，在您的示例中，将locationB和locationC的“ true”参数设置为相等，并将locationA的“ true”参数设置为任意大或小，并注意标准线性混合模型是否失败。）。但是它可以是固定的-例如，使用“钉和板”先验或“马蹄铁”先验。

因此，实际上更多的是要描述您正在谈论的假设类型，并获得先验和可能性中反映的许多已知特征。安德鲁·盖尔曼（Andrew Gelman）的方法只是一种隐式处理大量多重比较的方法。就像最小二乘和正态分布在大多数情况下（但不是全部）都可以正常工作一样。

就其执行方式而言，您可以想到一个人的推理如下-A组和B组可能具有相同的均值-我查看了数据，并且均值“接近”-因此，为了获得更好的估计对于这两者，我应该合并数据，因为我最初的想法是它们的均值相同。-如果它们不相同，则数据将提供证据表明它们“接近”，因此如果我的假设是错误的（那么所有模型都是错误的，有些模型是有用的），汇集“一点点”就不会对我造成太大的伤害。

请注意，以上所有这些都取决于初始前提“它们可能是相同的”。把它拿走，没有理由进行合并。您可能还会看到关于测试的“正常分布”方式。“最有可能为零”，“如果不为零，则最有可能接近零”，“极不可能出现极限”。考虑以下替代方案：

A组和B组的平均值可能相等，但也可能完全不同

那么关于“集中一点”的争论是一个非常糟糕的主意。您最好选择总池或零池。更像是柯西（Cauchy），尖峰和台阶，情况类型（很多质量都在零附近，并且很多质量都是极值）

不需要处理整个多重比较，因为贝叶斯方法正在将导致我们担心的信息纳入先验和/或可能性。从某种意义上讲，它提醒您适当考虑可以使用的信息，并确保已将其包括在分析中。

— 概率逻辑
source

2

l_{1}

$l_1$

\exp (- | x |)

$\exp(-|x|)$

@StasK-l1会更好，但由于它是对数凹面的，因此很难处理稀疏的非零值。我提到的都是对数凸的。与l1的一个近似变体是广义double pareto-通过混合使用拉普拉斯尺度参数（类似于ML语言中的自适应套索）来获得

— 概率论

5

首先，据我了解您介绍的模型，我认为它与Gelman提案有些不同，它看起来像：

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

实际上，通过添加此commonLocation参数，对3个分布（此处为位置1、2和3）的参数的推论不再相互独立。而且，commonLocation趋于将参数的期望值向中央（通常估计的）一个收缩。从某种意义上讲，它可以对所有推论进行正则化，从而无需进行多次校正的校正（在实践中，我们通过使用模型从它们之间的相互作用中执行一个单一的多元估计计算）。

正如另一个答案所指出的那样，这种校正不提供对I类错误的任何控制，但是在大多数情况下，即使在单个推断尺度下，贝叶斯方法也无法提供任何此类控制，因此在贝叶斯方法中必须对多重比较的校正进行不同的思考。设置。

— eu
source