Answers:
因为,假设正常错误实际上与假设不会发生大错误相同!正态分布的尾巴很轻,因此标准偏差以外的误差的概率非常低,实际上标准偏差以外的误差是不可能的。实际上,这种假设很少是正确的。当分析来自精心设计的实验的小的,整洁的数据集时,如果我们对残差进行良好的分析,则可能无关紧要。对于质量较低的数据,它可能要重要得多。
当使用基于似然(贝叶斯)的方法时,这种正态性的影响(如上所述,实际上是“无大错误”的假设!)会使推论的鲁棒性很小。分析结果受较大误差的影响太大!必须这样,因为假设“没有大的误差”会迫使我们的方法将大误差解释为小误差,而这只有通过移动平均值参数以减小所有误差才能实现。 避免这种情况的一种方法是使用所谓的“健壮方法”,请参阅 http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf
但是安德鲁·盖尔曼(Andrew Gelman)不会这样做,因为健壮的方法通常以高度非贝叶斯的方式呈现。在可能性/贝叶斯模型中使用t分布误差是获得鲁棒方法的另一种方式,因为尾部比正常情况重,因此允许较大比例的大误差。自由度参数的数量应预先固定,而不是根据数据估算,因为这样的估算会破坏方法(*)的鲁棒性(这也是一个非常困难的问题,的似然函数,数自由度可以是无限制的,从而导致估算器的效率很低(甚至不一致)。
例如,如果您认为(害怕)十分之一的观测值可能是“大误差”(高于3 sd),则可以使用具有2个自由度的,如果大错误的比例被认为较小。
我应该注意到,我上面所说的是针对具有独立误差的模型的。还提出了将多元分布(不是独立的)作为误差分布的建议。TS Breusch,JC Robertson和AH Welsh在Statistica Neerlandica(1997)第1卷中的“皇帝的新装:对多元回归模型的批判”一文中对此提出了强烈批评。51,nr。3,第269-286页,其中他们表明多元误差分布在经验上与正态没有区别。但是这种批评并不影响独立的模型。
(*)引用此内容的一个参考文献是Venables&Ripley的MASS ---带S的现代应用统计数据(第4版第110页)。
d know that the model proposed isn
不够好。
这不仅是“较重的尾巴”的问题,还有许多呈钟形且尾巴较重的分布。
T分布是高斯模型的后验预测。如果您做出高斯假设,但证据有限,那么结果模型必然会做出非中央规模的t分布预测。在极限中,随着证据数量达到无穷大,最终得到高斯预测,因为t分布的极限是高斯。
为什么会这样?因为只有有限的证据,模型的参数才具有不确定性。在高斯模型的情况下,均值的不确定性只会增加方差(即,具有已知方差的高斯的后验预测仍然是高斯)。但是,方差的不确定性是造成巨额收益的原因。如果使用无限证据训练模型,则方差(或均值)不再存在任何不确定性,您可以使用模型进行高斯预测。
该论点适用于高斯模型。它也适用于推断的似然是高斯的参数。给定有限的数据,关于参数的不确定性是t分布的。无论哪里有正态假设(均值和方差未知)和有限数据,哪里都有t分布的后验预测。
所有贝叶斯模型都具有相似的后验预测分布。盖尔曼建议我们应该使用那些。足够的证据可以减轻他的担忧。