不,学生化残差和标准化残差是不同(但相关)的概念。
中的R事实并提供内置的功能rstandard()
和rstudent()
作为的一部分influence.measures。相同的内置程序包提供了许多类似的杠杆,库克距离等rstudent()
功能MASS::studres()
,它们与基本上相同,您可以像这样检查自己:
> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE
标准化残差是一种估计特定数据点误差的方法,该方法考虑了该点的杠杆作用/影响。这些有时称为“内部学生化残差”。
[R一世= e一世小号(è一世)= e一世中号小号Ë(1 - ħ我我)-----------√
标准化残差背后的动机是,即使我们的模型假设均方差具有iid误差项,且误差固定为固定方差,因为残差不能被iid残差的总和总是恰好为零。ϵi∼N(0,σ2)ei
任何给定数据点的学生化残差均根据与所讨论的数据点不同的其他模型的拟合模型计算得出。这些被不同地称为“外部学生化残差”,“已删除残差”或“被套刀残差”。
这听起来在计算上很困难(听起来我们必须为每个点都适合一个新模型),但实际上,有一种方法可以仅从原始模型进行计算而无需重新拟合。如果标准化残差为,则学生化残差为:riti
ti=ri(n−k−2n−k−1−r2i)1/2,
学生化残差背后的动机来自其在离群值测试中的使用。如果我们怀疑一个点是一个异常值,那么根据定义,它不是从假定的模型生成的。因此,将异常值包括在模型拟合中将是一个错误-违反假设。学生化的残差被广泛用于实际的异常值检测中。
学生化残差还具有理想的属性,即对于每个数据点,假设满足原始回归模型的正态性假设,则残差的分布将为学生的t分布。(标准化残差的分布不太理想。)
最后,为了解决有关R库可能遵循与上述不同的术语的任何顾虑,R文档明确声明它们以与上述完全相同的含义使用“标准化”和“学生化”。
函数rstandard
并分别rstudent
给出标准化残差和学生化残差。(这些分别使用误差方差的整体和留一法对残差进行归一化以具有单位方差。)
R
术语与Montgomery,Peck和Vining(一种流行的回归教科书已经存在了35年)相反。因此要当心,并确保您研究R
文档以及必要时其源代码,而不要依赖于您认为的术语含义。