残差图:为什么要比较拟合值而不是观测到的


20

在OLS回归的背景下,我了解到,通常会查看残差图(相对于拟合值)来测试常数方差并评估模型规格。为什么针对拟合而不是值绘制残差?信息与这两个图有何不同?Y

我正在研究产生以下残差图的模型:

在此处输入图片说明

在此处输入图片说明

因此,该图与拟合值的关系一目了然,但是针对值的第二个图具有模式。我想知道为什么这样的明显模式也不会在残差vs拟合图中显示出来....Y

Y

2


3
我已经自由地调整标题以更加符合您的意图。即使在经济学家(也许是其中之一)中,“ IV”也具有工具变量的另一种含义,尽管在这种情况下没有歧义。为了更好地跨几种统计科学进行交流,我们中的一些人不赞成在本地使用缩写,例如DV(对于某些人来说,它仍然表示Deo volente)和IV,而只使用令人回味的术语,例如一方面是响应或结果,而在其上则是预测变量或协变量。其他。我知道这是您问题中的一个细节,但是已经很好地回答了。
尼克·考克斯

Answers:


10

通过构造,OLS模型中的误差项与X协变量的观测值不相关。即使该模型产生偏差的估计值也不能反映参数的真实值,这对于观察到的数据始终是正确的,因为违反了该模型的假设(例如遗漏变量问题或因果关系存在问题)。预测值完全是这些协变量的函数,因此它们也与误差项不相关。因此,在将残差与预测值作图时,它们应始终看起来是随机的,因为它们的确与估算器的构造无关。相反,实际上,模型的误差项完全有可能(而且确实有可能)与Y相关。例如,对于二分X变量,真实Y距任一E(Y | X = 1)E(Y | X = 0)残差越大。这是R中模拟数据的直觉,我们知道模型是无偏的,因为我们控制数据生成过程:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

例如,如果我们省略了偏向模型,则会得到零相关的相同结果 x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
很有帮助,但为清楚起见,可以重写第一句话。“构造”产生残差;在计算之前,错误项被认为存在并存在。同样,我想说的是构造的估算值,而不是估算器,它是构造估算值的方法。
尼克·考克斯

但是,为什么我们还要看残差图(相对拟合)呢?该图有什么诊断目的?我是这个网站的新手。我需要标记迈克尔还是他会自动收到此评论?我的评论也将适用于下面的@Glen_b答案。这两个答案都有助于我的理解。谢谢。
Mac Mac

...因为它们可能揭示其他结构。残差和拟合之间缺乏相关性并不意味着其他事情也不会发生。如果您认为自己的模型是完美的,那么您将不相信这种可能性。...实际上,您确实需要检查其他类型的结构。
Nick Cox 2015年

@Mac,老实说,我从不看这些情节。如果您要进行因果推论,则应该仔细考虑被遗漏的变量问题和概念上的因果关系问题。可能会出现任何问题,并且您将无法从这些图中看出来,因为它们是观测等效性的问题。如果您只关心预测,那么您应该仔细考虑并测试样本外模型的预测执行样本外性能的程度(否则,这不是预测)。
2015年

@NickCox是的,我的意思是模型估计的误差项,而不是参数的真实值。
2015年

19

我认为您对我感到满意的两个事实是:

yi=y^i+e^i

Cov(y^i,e^i)=0

然后:

冠状病毒ÿ一世Ë^一世=冠状病毒ÿ^一世+Ë^一世Ë^一世

=冠状病毒ÿ^一世Ë^一世+冠状病毒Ë^一世Ë^一世

=0+σË2

=σË2

因此,尽管拟合值与残差不相关,但观察值为

实际上,这是因为观察值和残差都与误差项相关。

这通常使得将残差图用于诊断目的有些困难。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.