为什么诊断基于残差?


11

在简单的线性回归中,人们经常想要验证是否满足某些假设才能进行推断(例如,残差呈正态分布)。

通过检查拟合值是否呈正态分布来检查假设是否合理?

Answers:


19

为什么诊断基于残差?

因为许多假设都与的条件分布有关,而不是与它的无条件分布有关。这相当于对误差的假设,我们通过残差来估计。Y

在简单的线性回归中,人们经常想要验证是否满足某些假设才能进行推断(例如,残差呈正态分布)。

实际的正态性假设与残差无关,而与误差项有关。与残差最接近的是残差,这就是我们检查残差的原因。

通过检查拟合值是否服从正态分布来检查假设是否合理?

不能。拟合值的分布取决于的模式。它不会告诉您有关假设的任何信息。x

例如,我只是对模拟数据进行了回归,为此正确指定了所有假设。例如,错误的正常性得到了满足。当我们尝试检查拟合值的正态性时,将发生以下情况:

配件的正常性诊断

x

yxxy

原始y值的正态性诊断

y

Yyyx


假设是什么,我们如何检查它们以及何时需要进行假设?

  • x

  • E(Y)xx

  • Var(Y|x)xxx

  • 条件独立/错误独立。可以检查特定形式的依赖性(例如,序列相关)。如果您无法预期依赖的形式,则很难检查。

  • Y

(实际上,我还没有提到其他一些假设,例如加性误差,误差均值为零等等)。

如果您仅对估计最小二乘线的拟合度感兴趣,而对标准误差不感兴趣,则无需进行大多数此类假设。例如,误差的分布会影响推理(测试和间隔),并且会影响估计的效率,但是LS线仍然是最佳的线性无偏。因此,除非分布非常严重地非正态以至于所有线性估计量都不好,否则,如果对误差项的假设不成立,就不一定是大问题。


我在答案中添加了一些图表。
Glen_b-恢复莫妮卡

2
这是一个很好的答案。如果您想要更多,我在这里涵盖了一些相似的领域:如果残差是正态分布的,而Y不是呢?
gung-恢复莫妮卡

@gung我踢自己不首先链接到它。
Glen_b-恢复莫妮卡

1
@格兰:很好的性格。由于对教科书和互联网上几乎所有资源中对该主题的处理不够好,我很长时间以来一直感到困惑。另一方面,几乎总是检查Y的无条件分布以得出条件分布的模型,尤其是在时间序列环境中。它背后有理论依据吗?我试着问它作为一个问题,但我认为不能那句得当:stats.stackexchange.com/questions/74886/...
Cagdas Ozgenc

@CagdasOzgenc我能想到的唯一原因是因为在拥有模型之前很容易做到。发布该链接问题时,您的答案似乎对我来说是一个很好的答案。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.