关于OLS回归的的一个非常基本的问题
- 运行OLS回归y〜x1,我们有一个,例如0.3
- 运行OLS回归y〜x2,我们还有另一个,比如0.4
- 现在我们运行回归y〜x1 + x2,该回归的R平方可以是什么值?
我认为很明显,多元回归的应该不小于0.4,但是否有可能大于0.7?
关于OLS回归的的一个非常基本的问题
我认为很明显,多元回归的应该不小于0.4,但是否有可能大于0.7?
Answers:
第二个回归变量可以简单地弥补第一个回归变量未能在解释变量中解释的内容。这是一个数字示例:
生成x1
样本量为20的标准正态回归变量。在不失一般性的情况下,采用,其中也为。现在,将第二个回归变量简单地作为因变量和第一个回归变量之间的差。ù 我 Ñ (0 ,1 )x2
n <- 20
x1 <- rnorm(n)
y <- .5*x1 + rnorm(n)
x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
x1 + x2 = y
那么summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared
应该比1.毫不逊色,但显然我错了..
除了下限是0.3或0.4(取决于哪个变量首先进入模型)外,您没有什么可说的。上升多少很大程度上取决于第二个变量带入模型的信息。通过信息,我们当然意味着所解释的响应变化。
在这方面有一个至关重要的概念,那就是预测变量之间的相关性。如果相关性很大,则新变量不仅不会为模型带来任何好处,而且还会使现有变量的推断复杂化,因为估算值将变得不精确(多重共线性)。这就是我们理想地希望新变量与其他变量正交的原因。在观察研究中发生这种情况的机会很小,但是可以在受控的环境中完成,例如在构建自己的实验时。
但是,如何精确量化变量将带给模型的新信息呢?这需要所有这些考虑一种广泛使用的措施是在局部 。如果您熟悉线性模型的ANOVA,则无非就是将这个变量包含到模型中而实现的平方误差总和的成比例减小。高百分比是可取的,而低百分比则可能使您认为这是否是正确的做法。
因此,正如@cardinal在评论中指出的那样,您的新确定系数可能高达1。它也可能高达0.400001。没有其他信息,就无法说出来。
多元线性回归中的确定系数:在多元线性回归中,可以使用二次形式根据变量的成对相关性来确定测定系数:
其中是响应向量和每个解释性向量之间的相关向量,而是解释向量之间的相关矩阵(有关更多信息,请参见此相关问题)。对于双变量回归,您可以:
您没有在问题中指定单变量相关的方向,因此在不失一般性的情况下,我们将表示。替换值和得出:
这是可能的,由于可以从两个变量的组合的信息要超过其部分的总和。这种有趣的现象称为“增强”(例如参见Lewis和Escobar 1986)。