研究与因变量有关的残差图是否有意义?


11

我想知道当我获得单变量回归时,研究残差相对于因变量的图是否有意义。如果有道理,则残差(在y轴上)与因变量的估计值(在x轴上)之间的强线性增长关系意味着什么?

在此处输入图片说明


3
我不确定“强,线性,不断增长的相关性”是什么意思。你能显示情节吗?将残差与拟合值作图是完全合理的。通常,您不希望存在任何关系-一条水平的水平线穿过中心。此外,您还希望残差的垂直方向从图的左侧到右侧保持恒定。
gung-恢复莫妮卡

你好 谢谢您的回答。这是情节:img100.imageshack.us/img100/7414/bwages.png
路易吉

那令人困惑。让我确保我理解:您运行了回归模型,然后绘制了残差与拟合值的关系,这就是您所得到的,对吗?它看起来不应该那样。您可以编辑问题并粘贴用于模型和绘图的代码吗?
gung-恢复莫妮卡

你没看错 抱歉,但是我不知道如何检索代码,我运行了回归并使用程序Gretl绘制了残差。
路易吉,

2
当我在下面写下答案时,最初没有看到@ mark999的评论。我认为他的怀疑是正确的,那就是残差与y值。路易吉(Luigi),请重做您的图形-当您可能对变量的含义有误时,请不要尝试解释它。
迈克尔·毕晓普

Answers:


12

假设有回归,其中β 10。然后,ÿ - β 0听,说:ε 。的较高ÿ值,残余越大。相反,残差对x的图不应显示系统关系。此外,预测值ý应该大约β 0ÿ一世=β0+β1个X一世+ϵ一世β1个0ÿ一世-β0ϵ一世ÿXÿ^一世β^0---每次观察都一样。如果所有预测值都大致相同,则它们应与误差无关。

情节告诉我的是,y本质上是无关的(当然,有更好的方法可以显示这一点)。让我们知道您的系数β 1不接近0。Xÿβ^1个

作为更好的诊断方法,请使用残差相对于预测工资或值的图。您不应在这些图中观察到明显的模式。X

如果您想进行一些R演示,请执行以下操作:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

这并不意味着仅仅是因为,有可能是该模型需要更多的解释变量,如多项式项。β1个=0
Biostat 2011年

5

假设正确指定了估计模型...

让我们分别表示,矩阵P X是一个投影矩阵,所以P 2 X = P XP ' X = P XPX=XXX-1个XPXPX2=PXPX=PX

Cov(Y^,e^)=Cov(PXÿ一世-PXÿ=PXCØvÿÿ一世-PX=σ2PX一世-PX=0

因此,残差对预测因变量的散点图应显示无相关性。

但!

CØvÿË^=CØvÿ一世-PXÿ=CØvÿÿ一世-PX=σ2一世-PX

矩阵是一个投影矩阵,它的特征值是0或1,它是半正定的。因此,它在对角线上应具有非负值。因此,残差对原始因变量的散点图应显示正相关。σ2一世-PX

据我所知,Gretl默认情况下会针对原始因变量(而不是预测的变量)生成残差图。


我感谢其他可能性。这是一些有关Gretl的知识会有所帮助的地方。但是,我想知道,这是否是真正的答案呢?使用我的模拟数据,我将残差与原始dv相关并绘制了图;r = .22,该图看起来很像我的第三个图,而不是问题图。当然,我整理了这些数据来检查我故事的真实性-它们可能不适合检查您的故事。
gung-恢复莫妮卡

@gung您使用模拟数据是什么意思?
Michael Bishop

@MichaelBishop如果您查看我的答案,您会看到我模拟了数据来尝试我的故事,看它是否看起来像发布的情节。介绍了我的代码和图。由于我指定的种子,它是可重复的任何人都获得R.
恢复莫妮卡-呱

4

您是否可能将拟合/预测值与实际值混淆?

正如@gung和@biostat所说,您希望拟合值和残差之间没有关系。另一方面,期望在因变量/结果变量的实际值与残差之间找到线性关系,但并不是特别有用。

添加以澄清前面的句子:不仅期望残差与输出的实际值之间存在任何线性关系...对于低的Y测量值,有用模型的Y预测值往往会高于实际测量值,反之亦然。


您要说的是,如果在Y的低值处始终低估值,而在Y的高值处始终高估值,那没关系。那是个问题吧?
rolando2

@ rolando2,虽然您可能应该澄清我的答案,但我没有暗示您所说的话。如您所说,在低值Y时始终低估并在高值Y时高估将是非常糟糕的模型的信号。我想象了相反的情况,在Y的低值时会过高预测,而在Y的高值时会过低预测。这种现象很常见,并且可以预期与您能够解释的因变量的方差大致成比例。想象一下,您缺少任何可预测Y的变量,因此您始终将均值用作预测
Michael Bishop

1
你说的话对我来说很有意义,除了一件事。我很难想象,即使Luigi所示的趋势从左上到右下,也能以合理或令人满意的方式显示出来。
rolando2 2011年

1
@ rolando2,通常将残差定义为已观察到-拟合,因此负残差是过高的预测。在适当指定的模型中,几乎没有解释力-我是一名社会科学家,所以我一直都在看这些东西-残差与观察到的结果值之间将存在很强的正相关关系。如果这是残差对实际图,则从左上到右下的趋势将是您最初担心的模型指定错误的信号。
迈克尔·毕晓普

好的,我的错。正如迈克尔·毕晓普(Michael Bishop)和罗阿(Roah)所写,格雷特(Gretl)相对于观测到的 y(而不是预测的y)绘制残差。我为所有这些混乱感到非常抱歉,我真的没想到所有这些答案。我是一个初学者,我犯了这个错误,所以希望您能“原谅”我。无论如何,我认为这应该表明我应该使用更多的解释变量。谢谢大家!
路易吉

3

提供的答案使我对这里发生的事情有了一些想法。我确实相信可能是偶然地犯了一些错误。看看下面的故事是否有意义:首先,我认为数据中的X和Y之间可能存在很强的关系(下面是一些代码和图表):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

在此处输入图片说明

但是错误地只是从均值中预测了Y。除此之外,仅针对均值模型的残差相对于X进行绘制,即使要针对拟合值进行绘制(代码和绘图)也是如此:

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

在此处输入图片说明

我们可以通过拟合合适的模型并绘制残差(代码和绘图)来解决此问题:

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

在此处输入图片说明

这似乎就像我刚开始时做的那种傻瓜。


0

此图表明您拟合的模型不好。正如@gung在对主要问题的第一批评论中所说,谓词响应与残差之间不应存在任何关系。

“分析师应该期望回归模型到ERR预测以随机方式的响应;该模型应该更高预测值比实际的和小于实际以相等的概率降低见。这个

我建议先进行绘图响应与自变量,以了解它们之间的关系。在模型中添加多项式项可能是合理的。


0

如果X和Y变量之间没有关系,这会发生什么吗?通过查看该图,您似乎在本质上预测了Y的平均值。


0

我认为OP将残差与原始响应变量(而不是模型中拟合的响应变量)作图。我一直看到这样的情节,几乎都有相同的模式。确保您绘制残差与拟合值的关系图,因为我不确定您可以从残差与原始Y值中得出什么有意义的推断。但是我肯定是错的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.