@NickCox在讨论两组残差的显示方面做得很好。让我解决该线程背后的一些显式问题和隐式假设。
这个问题问道:“当自变量为二进制时,如何测试线性回归假设,例如均方差?” 您有一个多元回归模型。一个(多个)回归模型假定只有一个误差项,该误差项在任何地方都是恒定的。单独检查每个预测变量的异方差并不十分有意义(而且您没有)。这就是为什么当我们有一个多元回归模型时,我们会根据残差与预测值的关系图来诊断异方差。为此目的,最有用的图可能是比例位置图(也称为“扩展水平”),它是残差绝对值与预测值的平方根的图。要查看示例,在线性回归模型中具有“恒定方差”是什么意思?
同样,您不必检查每个预测变量的残差是否为正态。(老实说,我什至不知道那将如何工作。)
检查残差对各个预测变量的图时,您可以执行以下操作:检查是否正确指定了功能形式。例如,如果残差形成抛物线,则您错过的数据中会有一些曲率。要查看示例,请查看@Glen_b答案中的第二个图: 在线性回归中检查模型质量。但是,这些问题不适用于二进制预测器。
就其价值而言,如果您只有分类预测变量,则可以测试异方差性。您只需要使用Levene的测试即可。我在这里讨论它:为什么Levene检验方差相等而不是F比? 在R中,您可以从汽车包装中使用?leveneTest。
编辑:为了更好地说明一点,当您具有多重回归模型时,查看残差与单个预测变量的关系图无济于事,请考虑以下示例:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
从数据生成过程中可以看出,没有异方差性。让我们检查模型的相关图,看看它们是否暗示有问题的异方差性:
不,不用担心。但是,让我们看一下残差与各个二进制预测变量的关系图,看那里是否存在异方差:
嗯,看起来确实有问题。从数据生成过程中我们知道不存在任何异方差性,而用于探索这一点的主要图解也未显示任何异方性,那么这里发生了什么?也许这些情节会有所帮助:
x1
并且x2
彼此不独立。此外,观察结果在x2 = 1
极端情况下。它们具有更大的杠杆作用,因此它们的残差自然较小。但是,没有异方差。
带回家的信息: 最好的选择是仅从适当的图(残差与拟合图以及价差分布图)诊断异方差。