Answers:
最简单的思考方法是原始残差()是相应干扰的估计值()。但是,还有一些额外的复杂性。例如,尽管我们在标准OLS模型中假设误差/干扰是独立的,但残差不可能全部都是。一般而言,只有 残差可以是独立的,因为您已经使用过 估计均值模型的自由度和残差被限制为 。另外,原始残差的标准偏差实际上不是恒定的。一般而言,拟合回归线的目的是使回归线的平均水平更接近杠杆率更高的那些点。结果,这些点的残差的标准偏差小于低杠杆点的残差的标准偏差。(有关此内容的更多信息,可能有助于在这里阅读以下答案:解释plot.lm()和/或此处:如何在线性回归中对二进制/二分法独立预测变量执行残差分析?)
之间的关系 和 是:
哪里 ,帽子矩阵是 。
就是说 是所有误差的线性组合,但通常大多数权重都落在了 -第一个。
这是一个使用cars
R中的数据集的示例。考虑以紫色标记的点:
让我们称之为重点 。残留物,其中 其他错误在-0.02范围内:
我们可以将其重写为:
或更一般地
哪里 是个 的第对角元素 。同样,以上是 。
如果错误是错误的 那么在此示例中,这些其他误差的加权和将具有一个标准偏差,大约对应于误差的1/7。 对其残渣进行观察。
也就是说,在行为良好的回归中,残差通常可以被视为对误差项无法观察到的中等噪声估计。当我们考虑离中心点较远的点时,情况会变得不太理想(残差对误差的加权较小,而其他误差的权重则变得较小)。
有很多参数,或者有 的分布不太理想,残差可能不像错误那么大。您可能想尝试一些示例。