为什么我们应该使用t错误而不是普通错误？

在Andrew Gelman撰写的此博客文章中，包含以下内容：

50年前的贝叶斯模型看起来简直是无望的（当然，对于简单的问题除外），我希望今天的贝叶斯模型在50年后看起来简直是绝望的。（仅举一个简单的例子：我们可能应该在任何地方都常规地使用t而不是正常错误，但是出于熟悉，习惯和数学上的方便，我们还没有这样做。这可能是很好的理由-在科学上在政治上，保守主义有很多有利的理由，但我认为，最终，当我们适应更复杂的模型时，我们会朝着这个方向发展。）

为什么我们应该“常规地在几乎所有地方都使用t而不是普通错误”？

— 土豆
source

Answers:

因为，假设正常错误实际上与假设不会发生大错误相同！正态分布的尾巴很轻，因此标准偏差以外的误差的概率非常低，实际上标准偏差以外的误差是不可能的。实际上，这种假设很少是正确的。当分析来自精心设计的实验的小的，整洁的数据集时，如果我们对残差进行良好的分析，则可能无关紧要。对于质量较低的数据，它可能要重要得多。 $\pm 3$ $\pm 6$

当使用基于似然（贝叶斯）的方法时，这种正态性的影响（如上所述，实际上是“无大错误”的假设！）会使推论的鲁棒性很小。分析结果受较大误差的影响太大！必须这样，因为假设“没有大的误差”会迫使我们的方法将大误差解释为小误差，而这只有通过移动平均值参数以减小所有误差才能实现。 避免这种情况的一种方法是使用所谓的“健壮方法”，请参阅 http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

但是安德鲁·盖尔曼（Andrew Gelman）不会这样做，因为健壮的方法通常以高度非贝叶斯的方式呈现。在可能性/贝叶斯模型中使用t分布误差是获得鲁棒方法的另一种方式，因为尾部比正常情况重，因此允许较大比例的大误差。自由度参数的数量应预先固定，而不是根据数据估算，因为这样的估算会破坏方法（*）的鲁棒性（这也是一个非常困难的问题，的似然函数，数自由度可以是无限制的，从而导致估算器的效率很低（甚至不一致）。 $t$ $\nu$

例如，如果您认为（害怕）十分之一的观测值可能是“大误差”（高于3 sd），则可以使用具有2个自由度的，如果大错误的比例被认为较小。 $t$

我应该注意到，我上面所说的是针对具有独立误差的模型的。还提出了将多元分布（不是独立的）作为误差分布的建议。TS Breusch，JC Robertson和AH Welsh在Statistica Neerlandica（1997）第1卷中的“皇帝的新装：对多元回归模型的批判”一文中对此提出了强烈批评。51，nr。3，第269-286页，其中他们表明多元误差分布在经验上与正态没有区别。但是这种批评并不影响独立的模型。 $t$ $t$ $t$ $t$ $t$

（*）引用此内容的一个参考文献是Venables＆Ripley的MASS ---带S的现代应用统计数据（第4版第110页）。

— 凯捷蒂尔·哈沃森
source

极好的答案（+1）。请注意，即使是固定的，如果定义估计方程，所以我是Gelman的意思是分布，其中参数固定为。如对此相关问题的回答所示，这对这种方法可以预期的健壮性设置了相当大的限制。

ν

$\nu$

ν \leq 2

$\nu\leq2$

t

$t$

ν

$\nu$

ν > 2

$\nu>2$

— user603 2014年

很棒的答案和评论。但是：1.盖尔曼（Gelman）捍卫着一种标准程序，该程序比假设正常错误要好。因此，我们应该将简单（正态误差）与T分布进行比较。2.在user603链接的相关问题中，我们应注意，如果qe具有先验信息，则应使用它。贝叶斯擅长提供先验信息。在示例中，我们确实有未使用的先验信息。3.通过后验检查我们还d know that the model proposed isn不够好。

— Manoel Galdino 2014年

@Neil G：是的，但是柯西是！当然，准确解决要使用哪种重尾分布当然需要更多分析。

t_{1}

$t_1$

— kjetil b halvorsen

不，t分布是唯一的选择，因为t分布是高斯模型的后验预测。盖尔曼不只是随机挑选t分布。

— Neil G

参见：Murphy，KevinP。“共轭高斯分布的贝叶斯分析”。def1.2σ2（2007）：16.他推导了t分布作为高斯模型的后验预测。建模者不仅选择任意的重尾分布，也不仅仅是这种情况。

— Neil G

这不仅是“较重的尾巴”的问题，还有许多呈钟形且尾巴较重的分布。

T分布是高斯模型的后验预测。如果您做出高斯假设，但证据有限，那么结果模型必然会做出非中央规模的t分布预测。在极限中，随着证据数量达到无穷大，最终得到高斯预测，因为t分布的极限是高斯。

为什么会这样？因为只有有限的证据，模型的参数才具有不确定性。在高斯模型的情况下，均值的不确定性只会增加方差（即，具有已知方差的高斯的后验预测仍然是高斯）。但是，方差的不确定性是造成巨额收益的原因。如果使用无限证据训练模型，则方差（或均值）不再存在任何不确定性，您可以使用模型进行高斯预测。

该论点适用于高斯模型。它也适用于推断的似然是高斯的参数。给定有限的数据，关于参数的不确定性是t分布的。无论哪里有正态假设（均值和方差未知）和有限数据，哪里都有t分布的后验预测。

所有贝叶斯模型都具有相似的后验预测分布。盖尔曼建议我们应该使用那些。足够的证据可以减轻他的担忧。

— 尼尔·G
source

您可以使用一些参考资料备份吗？

— kjetil b halvorsen

@kjetilbhalvorsen：Murphy，KevinP。“共轭高斯分布的贝叶斯分析”。DEF1.2σ2（2007）：16

— 尼尔ģ

有趣的观点，我以前从未听说过。那么，t分布误差也能导致t分布预测吗？这对我来说这是一个争论赞成继续使用高斯错误。除非您期望条件离群值，否则条件错误模型不需要考虑它们。这等于所有离群值都来自预测变量的离群值的假设。在很多情况下，我认为这种假设并不那么糟糕。而且从纯粹的审美角度来看，我不明白为什么条件分布和边际分布必须匹配

— shadowtalker 2015年

@ssdecontrol“ t分布的错误还会导致t分布的预测吗？” 我不知道，但是我不这么认为。对我而言，这种观点对于直观了解t检验的工作原理非常有用。

— Neil G