非常有趣的问题,这是我的看法。
全部与编码信息有关,然后转动贝叶斯曲柄。似乎太好了,难以置信-但是这两者都比看起来难。
我先问一个问题
当我们担心多重比较时,会使用什么信息?
我可以想到一些-第一个是“数据挖掘”-测试“一切”,直到获得足够的通过/失败(我认为几乎每个受过统计学训练的人员都将面临这个问题)。您的险恶程度也较小,但本质上是相同的:“我要运行很多测试-肯定所有测试都不正确”。
考虑了这一点之后,我注意到的一件事是,您不太会听到有关特定假设或特定比较的信息。都是关于“集合”的-这触发了我对可交换性的思考-被比较的假设在某种程度上彼此“相似”。以及如何将可交换性编码为贝叶斯分析?-超优先级,混合模型,随机效果等!!!
但是可交换性只会让您成为其中的一部分。一切都可以交换吗?还是您具有“稀疏性”-例如只有少数非零回归系数以及大量候选对象。混合模型和正态分布随机效应在这里不起作用。它们在挤压噪声和保持信号不变之间陷入“卡住”状态(例如,在您的示例中,将locationB和locationC的“ true”参数设置为相等,并将locationA的“ true”参数设置为任意大或小,并注意标准线性混合模型是否失败。) 。但是它可以是固定的-例如,使用“钉和板”先验或“马蹄铁”先验。
因此,实际上更多的是要描述您正在谈论的假设类型,并获得先验和可能性中反映的许多已知特征。安德鲁·盖尔曼(Andrew Gelman)的方法只是一种隐式处理大量多重比较的方法。就像最小二乘和正态分布在大多数情况下(但不是全部)都可以正常工作一样。
就其执行方式而言,您可以想到一个人的推理如下-A组和B组可能具有相同的均值-我查看了数据,并且均值“接近”-因此,为了获得更好的估计对于这两者,我应该合并数据,因为我最初的想法是它们的均值相同。-如果它们不相同,则数据将提供证据表明它们“接近”,因此如果我的假设是错误的(那么所有模型都是错误的,有些模型是有用的),汇集“一点点”就不会对我造成太大的伤害。
请注意,以上所有这些都取决于初始前提“它们可能是相同的”。把它拿走,没有理由进行合并。您可能还会看到关于测试的“正常分布”方式。“最有可能为零”,“如果不为零,则最有可能接近零”,“极不可能出现极限”。考虑以下替代方案:
那么关于“集中一点”的争论是一个非常糟糕的主意。您最好选择总池或零池。更像是柯西(Cauchy),尖峰和台阶,情况类型(很多质量都在零附近,并且很多质量都是极值)
不需要处理整个多重比较,因为贝叶斯方法正在将导致我们担心的信息纳入先验和/或可能性。从某种意义上讲,它提醒您适当考虑可以使用的信息,并确保已将其包括在分析中。