是lm模型中的学生化残差v / s标准化残差


10

回归模型中的“学生残差”和“标准化残差”是否相同?我在R中建立了线性回归模型,并想绘制学生化残差v / s拟合值的图表,但没有找到在R中执行此操作的自动方法。

假设我有一个模型

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

则使用plot(lm.fit)不会提供学生化残差与拟合值的任何关系图,但会提供标准化残差与拟合值的关系图。

我用过了plot(lm.fit$fitted.values,studres(lm.fit),它将绘制出想要的图形,所以只想确认我走的路正确,并且学生化和标准化残差不是一回事。如果它们不同,则请提供一些指南以计算它们及其定义。我在网上搜索,发现它有点混乱。


2
+1它,但令人困惑,因为(a)事实上,这些类型的残差的不同(二)不同的主管部门不同意怎么称呼他们!例如,该R术语与Montgomery,Peck和Vining(一种流行的回归教科书已经存在了35年)相反。因此要当心,并确保您研究R文档以及必要时其源代码,而不要依赖于您认为的术语含义。
ub

Answers:


11

不,学生化残差和标准化残差是不同(但相关)的概念。

中的R事实并提供内置的功能rstandard()rstudent()作为的一部分influence.measures。相同的内置程序包提供了许多类似的杠杆,库克距离等rstudent()功能MASS::studres(),它们与基本上相同,您可以像这样检查自己:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

标准化残差是一种估计特定数据点误差的方法,该方法考虑了该点的杠杆作用/影响。这些有时称为“内部学生化残差”。

ri=eis(ei)=eiMSE(1hii)

标准化残差背后的动机是,即使我们的模型假设均方差具有iid误差项,且误差固定为固定方差,因为残差不能被iid残差的总和总是恰好为零。ϵiN(0,σ2)ei

任何给定数据点的学生化残差均根据与所讨论的数据点不同的其他模型的拟合模型计算得出。这些被不同地称为“外部学生化残差”,“已删除残差”或“被套刀残差”。

这听起来在计算上很困难(听起来我们必须为每个点都适合一个新模型),但实际上,有一种方法可以仅从原始模型进行计算而无需重新拟合。如果标准化残差为,则学生化残差为:riti

ti=ri(nk2nk1ri2)1/2,

学生化残差背后的动机来自其在离群值测试中的使用。如果我们怀疑一个点是一个异常值,那么根据定义,它不是从假定的模型生成的。因此,将异常值包括在模型拟合中将是一个错误-违反假设。学生化的残差被广泛用于实际的异常值检测中。

学生化残差还具有理想的属性,即对于每个数据点,假设满足原始回归模型的正态性假设,则残差的分布将为学生的t分布。(标准化残差的分布不太理想。)

最后,为了解决有关R库可能遵循与上述不同的术语的任何顾虑,R文档明确声明它们以与上述完全相同的含义使用“标准化”和“学生化”。

函数rstandard并分别rstudent给出标准化残差和学生化残差。(这些分别使用误差方差的整体一法对残差进行归一化以具有单位方差。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.