为什么为了估计回归线,残差的正态“根本不重要”?


21

Gelman and Hill(2006)在第46页上写道:

通常最不重要的回归假设是误差呈正态分布。实际上,出于估计回归线的目的(与预测单个数据点相比),假设正态性一点也不重要。因此,与许多回归教科书相比,我们不建议对回归残差的正态性进行诊断。

盖尔曼和希尔似乎没有进一步解释这一点。

盖尔曼和希尔正确吗?如果是这样,则:

  1. 为什么“根本不重要”?为什么既不重要也不完全不相关?

  2. 为什么在预测单个数据点时残差的正态性很重要?

Gelman,A.,&Hill,J.(2006)。使用回归和多层次/层次模型进行数据分析。剑桥大学出版社

Answers:


21

对于估计,正态性并非完全是一个假设,但主要考虑因素是效率。在许多情况下,一个好的线性估计量会很好,在这种情况下(由高斯-马可夫(Gauss-Markov)提出),LS估计将是最好的那些事情(可能会好的)。(如果您的尾巴很重或很轻,则可以考虑考虑其他事项)

就测试和CI而言,虽然假设是正常的,但通常并不是那么关键(同样,只要尾巴不是真的很重也不很轻,或者也许不是每个尾巴之一),至少在非常少的情况下,小样本测试和典型配置项趋向于具有接近其标称特性(离声明的显着性水平或覆盖范围不太远)并且表现良好(典型情况下的合理功率或配置项不比替代项宽很多)与正常情况相比,功率可能会成为更大的问题,在那种情况下,大样本通常不会提高相对效率,因此,如果效应大小如此之大,以至于功率在具有相对较好功率的测试中处于中等水平,则它可能非常差对于假定正常的测试。

在测试中具有接近CI的名义属性和显着性水平的趋势是由于多个因素共同作用(其中之一是变量的线性组合趋向于接近正态分布的趋势,只要其中涉及许多值,并且它们都不占总方差的很大一部分)。

但是,在基于正常假设的预测间隔的情况下,由于间隔的宽度强烈取决于单个值的分布,因此正态性相对更为关键。但是,即使对于最常见的区间大小(95%区间),许多单峰分布在均值的约2sds内非常接近其分布的95%的事实也趋于导致正常预测区间的合理性能,甚至当分布不正常时。[不过,对于更窄或更宽的时间间隔(例如50%的时间间隔或99.9%的时间间隔),效果并不那么好。]


“变量线性组合趋于接近正态分布的趋势。” -我想这与中央极限定理没有关系。是吗?如果不是,那么该陈述是什么样的“定理”?
海森堡

1
@Heisenberg它与CLT的特定版本有关,是的。(请参见此处的Lyapunov和Lindeberg版本)。如果您希望一个定理适用于有限样本,那么我们正在寻找Berry-Esseen定理的一个版本。但是该陈述的目的更多是观察(而不是定理)(因此使用“倾向”一词)。
Glen_b-恢复莫妮卡

7

2:当预测单个数据点时,围绕该预测的置信区间假定残差呈正态分布。

这与关于置信区间的一般假设并没有太大不同-要想成立,我们需要了解分布,并且最常见的假设是正态性。例如,均值周围的标准置信区间有效,因为样本均值的分布接近正态性,因此我们可以使用z或t分布

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.