如何在具有高多重共线性的线性回归中处理不稳定的


13

具有高多重共线性的线性回归中的Beta稳定性?

假设在线性回归中,变量x 2具有较高的多重共线性(相关系数约为0.9)。x1x2

我们担心系数的稳定性,因此我们必须处理多重共线性。β

教科书的解决方案是只丢弃一个变量。

但是我们不想仅仅丢弃变量就失去有用的信息。

有什么建议?


5
您是否尝试过某种正则化方案(例如,岭回归)?
内斯托尔·

Answers:


11

如果相关矩阵接近奇异(即变量具有高相关性),则可以尝试使用岭回归方法。它将为您提供的可靠估计。β

唯一的问题是如何选择正则化参数。尽管我建议尝试使用其他值,但这不是一个简单的问题。λ

希望这可以帮助!


2
交叉验证是选择 ;-) 的常用方法。λ
内斯托尔·

的确是(答案为1,内斯特斯的评论为+1),如果您以“规范形式”执行计算(使用的特征分解,则可以找到λ,它通过牛顿的方法非常便宜XTXλ
迪克兰有袋动物2012年

非常感谢!任何有关如何执行此操作的教程/说明,包括R中的交叉验证?
露娜

查阅本书第3章:stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf。某些作者在R中完成了岭回归的实现(Google是您的朋友!)。
内斯托尔·

2
您可以使用lm.ridgeMASS软件包中的例程。如果你传递一个范围值的,例如,像一个电话,你会回来的广义交叉验证统计数据,并可以绘制他们对λ:挑最小。λfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))fooλplot(foo$GCV~foo$lambda)
jbowman

10

好吧,我以前使用过一种临时方法。我不确定该过程是否有名称,但是直观上是有意义的。

假设您的目标是拟合模型

Yi=β0+β1Xi+β2Zi+εi

其中两个预测变量高度相关。正如您所指出的,在同一个模型中同时使用它们会对系数估计和p值产生奇怪的影响。替代方法是拟合模型Xi,Zip

Zi=α0+α1Xi+ηi

ηiXiZiXi

Yi=θ0+θ1Xi+θ2ηi+νi

它将捕获第一个模型的所有效果(并且确实具有与第一个模型完全相同的),但预测变量不再共线。R2

编辑: OP要求解释为什么当忽略截距时,残差在定义上与预测变量的样本相关性为零,就像包含截距时一样。这个时间太长,无法在评论中发布,因此我在这里进行了编辑。这个推导并不是特别有启发性(不幸的是,我无法提出一个合理的直觉论点),但是它确实显示了OP的要求

当在简单线性回归省略截距β = Σ X ÿ β^=xiyixi2ei=yixixiyixi2xiei

xe¯x¯e¯
¯

首先我们有

xe¯=1n(xiyixi2xiyixi2)=xy¯(1xi2xi2)=0

x¯e¯=x¯(y¯x¯xy¯x2¯)=x¯y¯x¯2xy¯x2¯

eixix¯e¯0

y¯=x¯xy¯x2¯

x,y


这让我想起了部分回归图。
Andy W

3
(X,Z)

3
XZ

1
嗨,宏,谢谢您的出色证明。是的,现在我明白了。当我们谈论x和残差之间的样本相关性时,要求包含截距项以使样本相关性为0。另一方面,当我们谈论x与残差之间的正交性时,则不需要截距项包括在内,以保持正交性。
露娜

1
@Luna,我并不特别反对使用岭回归-这只是我最初遇到的事情(我在建议之前回答了此问题)。我可以说的是,岭回归估计是有偏差的,因此,从某种意义上讲,您实际上估计的数量(收缩)与普通回归相比略有不同,这使得系数的解释可能更具挑战性(如gung暗示)。另外,我在这里描述的内容仅需要了解基本的线性回归,并且可能更直观地吸引一些人。
Macro

4

我喜欢到目前为止给出的两个答案。让我添加一些内容。

另一个选择是您还可以组合变量。这是通过将两者标准化(即将它们转换为z分数),对其进行平均,然后仅使用复合变量来拟合模型来完成的。当您认为它们是同一基础结构的两个不同量度时,这将是一个好方法。在这种情况下,您有两个测量值会被错误污染。您实际使用的变量最有可能的真实价值不在乎它们之间,因此对它们求平均值可以得到更准确的估计。首先将它们标准化,以使其具有相同的比例,这样名义上的问题就不会污染结果(例如,如果某些温度为华氏度而有些为摄氏温度,则您不希望对多个温度测量值求平均值)。当然,如果它们已经处于相同规模(例如,几个高度相关的民意测验),则可以跳过该步骤。如果您认为其中一个变量可能比另一个变量更准确,则可以进行加权平均(也许使用测量误差的倒数)。

r>.98将它们结合在一起,但是为什么要打扰呢? 但是,这在很大程度上取决于以下事实:变量是关联的,因为它们是同一事物的两个不同版本。如果有其他原因将它们关联起来,则可能完全不合适。

X1X2YXZ Xx1x2XZ

我同意岭回归可以说是更好的选择,因为它可以让您使用最初打算使用的变量,并且可能会产生非常接近其真实值的beta(尽管它们会产生偏差- 有关更多信息,请参见此处此处))。尽管如此,我认为它也有两个潜在的缺点:我认为它更复杂(需要更多的统计数据),并且所得到的模型更难以解释。

我认为也许最终的方法是拟合结构方程模型。这是因为它可以让您制定出您认为有效的确切关系集,包括潜在变量。但是,除了提到可能性之外,我对SEM的了解还不够。(我还怀疑在您仅描述两个协变量的情况下,这种做法可能会过大。)


4
X1eX1X2=X1+eX1Y=eYX1X2YX1X2Y=X2X1X1X2YY

非常感谢Gung!Q1。这种方法为什么起作用:“这是通过将两个标准都标准化(即,将它们转换为z分数),对其进行平均,然后仅使用复合变量来拟合模型来完成的。”?Q2。为什么岭回归会更好?Q3。SEM为什么会更好?有人请对此进行说明吗?谢谢!
露娜(Luna)

嗨,露娜,很高兴能为您提供帮助。我实际上要重新编辑它;@whuber比我最初意识到的要正确。我会尝试提供更多帮助来解决您的其他问题,但这会花费很多时间,因此可能需要一段时间。我们将看看情况如何。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.