我想知道当我获得单变量回归时,研究残差相对于因变量的图是否有意义。如果有道理,则残差(在y轴上)与因变量的估计值(在x轴上)之间的强线性增长关系意味着什么?
我想知道当我获得单变量回归时,研究残差相对于因变量的图是否有意义。如果有道理,则残差(在y轴上)与因变量的估计值(在x轴上)之间的强线性增长关系意味着什么?
Answers:
假设有回归,其中β 1 ≈ 0。然后,ÿ 我 - β 0听,说:ε 我。的较高ÿ值,残余越大。相反,残差对x的图不应显示系统关系。此外,预测值ý我应该大约β 0---每次观察都一样。如果所有预测值都大致相同,则它们应与误差无关。
情节告诉我的是,和y本质上是无关的(当然,有更好的方法可以显示这一点)。让我们知道您的系数β 1不接近0。
作为更好的诊断方法,请使用残差相对于预测工资或值的图。您不应在这些图中观察到明显的模式。
如果您想进行一些R演示,请执行以下操作:
y <- rnorm(100, 0, 5)
x <- rnorm(100, 0, 2)
res <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)
假设正确指定了估计模型...
让我们分别表示,矩阵P X是一个投影矩阵,所以P 2 X = P X和P ' X = P X。
。
因此,残差对预测因变量的散点图应显示无相关性。
但!
。
矩阵是一个投影矩阵,它的特征值是0或1,它是半正定的。因此,它在对角线上应具有非负值。因此,残差对原始因变量的散点图应显示正相关。
据我所知,Gretl默认情况下会针对原始因变量(而不是预测的变量)生成残差图。
您是否可能将拟合/预测值与实际值混淆?
正如@gung和@biostat所说,您希望拟合值和残差之间没有关系。另一方面,期望在因变量/结果变量的实际值与残差之间找到线性关系,但并不是特别有用。
添加以澄清前面的句子:不仅期望残差与输出的实际值之间存在任何线性关系...对于低的Y测量值,有用模型的Y预测值往往会高于实际测量值,反之亦然。
提供的答案使我对这里发生的事情有了一些想法。我确实相信可能是偶然地犯了一些错误。看看下面的故事是否有意义:首先,我认为数据中的X和Y之间可能存在很强的关系(下面是一些代码和图表):
set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")
但是错误地只是从均值中预测了Y。除此之外,仅针对均值模型的残差相对于X进行绘制,即使要针对拟合值进行绘制(代码和绘图)也是如此:
meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red",
main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")
我们可以通过拟合合适的模型并绘制残差(代码和绘图)来解决此问题:
appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))
这似乎就像我刚开始时做的那种傻瓜。