如何在线性回归中对二元/二分法独立预测变量执行残差分析?


11

我正在下面的R中执行多元线性回归,以预测所管理基金的回报。

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

在这里,只有GRI和MBA是二元/二分法预测因子;其余的预测变量是连续的。

我正在使用此代码生成二进制变量的残差图。

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

我的问题: 我知道如何检查残差图是否为连续的预测变量,但是当自变量为二进制时,如何测试线性回归的假设,例如均方差?

残留图:

GR1的残差图 MBA的剩余图

Answers:


8

@NickCox在讨论两组残差的显示方面做得很好。让我解决该线程背后的一些显式问题和隐式假设。

这个问题问道:“当自变量为二进制时,如何测试线性回归假设,例如均方差?” 您有一个多元回归模型。一个(多个)回归模型假定只有一个误差项,该误差项在任何地方都是恒定的。单独检查每个预测变量的异方差并不十分有意义(而且您没有)。这就是为什么当我们有一个多元回归模型时,我们会根据残差与预测值的关系图来诊断异方差。为此目的,最有用的图可能是比例位置图(也称为“扩展水平”),它是残差绝对值与预测值的平方根的图。要查看示例,在线性回归模型中具有“恒定方差”是什么意思?

同样,您不必检查每个预测变量的残差是否为正态。(老实说,我什至不知道那将如何工作。)

检查残差对各个预测变量的图时,您可以执行以下操作:检查是否正确指定了功能形式。例如,如果残差形成抛物线,则您错过的数据中会有一些曲率。要查看示例,请查看@Glen_b答案中的第二个图: 在线性回归中检查模型质量。但是,这些问题不适用于二进制预测器。

就其价值而言,如果您只有分类预测变量,则可以测试异方差性。您只需要使用Levene的测试即可。我在这里讨论它:为什么Levene检验方差相等而不是F比? 在R中,您可以从汽车包装中使用?leveneTest


编辑:为了更好地说明一点,当您具有多重回归模型时,查看残差与单个预测变量的关系图无济于事,请考虑以下示例:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

从数据生成过程中可以看出,没有异方差性。让我们检查模型的相关图,看看它们是否暗示有问题的异方差性:

在此处输入图片说明

不,不用担心。但是,让我们看一下残差与各个二进制预测变量的关系图,看那里是否存在异方差:

在此处输入图片说明

嗯,看起来确实有问题。从数据生成过程中我们知道不存在任何异方差性,而用于探索这一点的主要图解也未显示任何异方性,那么这里发生了什么?也许这些情节会有所帮助:

在此处输入图片说明

x1并且x2彼此不独立。此外,观察结果在x2 = 1极端情况下。它们具有更大的杠杆作用,因此它们的残差自然较小。但是,没有异方差。

带回家的信息: 最好的选择是仅从适当的图(残差与拟合图以及价差分布图)诊断异方差。


谢谢!对于相同的回归分析,我发现残差Vs Y是同调的,但是当我检查残差Vs任期(独立)时,它是一个漏斗形状。因此,我需要进行一些更改以更正此权利?那么在这种情况下,您只是想了解为什么您提到不需要检查残差Vs自变量?
GeorgeOfTheRF 2014年

@ mrcet007,不,您不需要转换。如果分辨率与拟合度之间没有显示出异方差性,则可以。也许插图会帮助您。我已经编辑了答案以添加演示。
gung-恢复莫妮卡

您可以检查此链接people.duke.edu/~rnau/testing.htm。它也表示检查残差Vs自变量。只是为了讨论而分享。你能对此发表评论吗?我在想的是,我们需要始终检查预测的残差Vs和残差vs独立。误差(a)对时间(在时间序列数据的情况下)(b)对预测(c)对任何自变量的均方差(恒定方差)
连续性

我的评论是,我为您提供了两个原因,您可以查看残差图和预测图以检查异方差性,并向您展示了一个示例,该示例说明了查看残差图和IV图如何使您误入歧途。我不知道还有什么要说的。
gung-恢复莫妮卡

6

的确,在这种情况下,传统的残差图更难工作:要弄清分布是否大致相同可能会(非常)困难。但是这里有简单的替代方法。您只是在比较两个分布,并且有很多好的方法可以做到这一点。一些可能性是并排或叠加的分位数图,直方图或箱形图。我自己的偏见是,未经修饰的箱形图在这里经常被过度使用:它们通常会压制我们应该查看的细节,即使我们经常认为它不重要也是如此。但是,您可以吃蛋糕并食用。

您使用R,但是问题中没有任何统计信息是R特定的。在这里,我使用Stata对单个二进制预测变量进行回归,然后触发分位数箱图,比较了预测变量的两个级别的残差。在此示例中的实际结论是分布大致相同。

在此处输入图片说明

1个/43/4

注意:另请参阅如何以极高的异常值呈现箱形图?包括@Glen_b的使用R的类似绘图示例。如果不是,则说明您的软件不合格。


+1美丽。您是否觉得这里的残差假设检验也有作用?
Alexis 2014年

@gung我编辑了您的编辑。如果您误解了原件,显然不够清楚。
尼克·考克斯

2
@Alexis谢谢!在这种情况下,图表非正式地支持了均等散布的假设。我并非认为,分析中的每个小步骤都需要通过P值来实现。不幸的是,要确保以正确的方式跳伞从来都不是一件容易的事,但是如果我有疑问,我实际上也会考虑其他模型。这里的示例只是针对问题而设计的,并不是认真分析的一部分。
尼克·考克斯

抱歉,尼克。我误会了那句话的意思。我以为是错字。现在更清楚了。
gung-恢复莫妮卡

1
@whuber我很好。有人发现它们令人困惑,所以我被告知。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.