有直观的解释为什么多重共线性是线性回归中的问题吗?


85

Wiki讨论了当多重共线性是线性回归中的一个问题时出现的问题。基本问题是多重共线性会导致参数估计不稳定,这使得很难评估自变量对因变量的影响。

我理解的问题背后的技术原因(可能无法反转,病态等),但我正在寻找这个问题的一个比较直观的(也许是几何?)的解释。X ' XXXXX

关于在线性回归的背景下多重共线性为什么有问题,是否存在一种几何的或也许其他易于理解的解释形式?


4
真是个好问题。理解事物的最好方法是从多个方向进行解释。
塔尔·加利利

1
另请参见相关问题和直观说明stats.stackexchange.com/q/70899/3277
ttnphns 2013年

Answers:


89

考虑最简单的情况,其中对于和回归,并且和高度正相关。然后,很难将对的影响与对的影响区分开,因为任何增加都倾向于与的增加相关。X Z X Z X Y Z Y X ZYXZXZXYZYXZ

另一种看待此问题的方法是考虑方程式。如果我们写,则系数是在保持不变的情况下,每增加一个单位,的增加量。但在实践中,往往是不可能拿着常数之间的正相关关系和意味着,在增加一个单位通常伴随着一些增加在同一时间。b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

类似的但更复杂的解释适用于其他形式的多重共线性。


20
+1的极端病理情况进一步突出了这一点。 和是无法区分的。X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv 2010年

1
+1我喜欢这个答案,因为最常见的帮助问题之一就是为什么和。推论必须考虑现实的输入。b1>0b2<0
muratoa 2012年

29

我曾经吃过寿司,以为可以很好地直观说明病态的问题。假设您想用两个棍棒向某人展示飞机,他们的脚底触碰了他们。

您可能会握住彼此正交的棍子。您的手在飞机上晃动的任何影响都会使其在您希望向人们展示的内容周围摇摆一些,但是在观看了一段时间之后,他们对您打算展示的飞机有了一个很好的了解。

但是,假设您将木棍的两端拉得更近一些,并观察手颤抖的效果。它形成的平面将更加疯狂地倾斜。您的观众将需要观看更长的时间才能更好地了解您要展示的飞机。


+1我认为这最直接地回答了问题。因为尽管多重共线性影响解释。为什么这是问题的所在,是估算的稳定性。
muratoa 2012年

+1用于在用户名Snackrifice下发布此评论(并且仅在Stackoverflow的历史记录中发布此评论)。
stackoverflax

19

几何方法是考虑在由跨越的子空间上的最小二乘投影。YX

假设您有一个模型:

E[Y|X]=β1X1+β2X2

我们的估计空间是由向量和确定的平面,问题是要找到与描述向量对应的坐标,在该平面上的最小二乘投影。 X 2β 1β 2ÿ ÿX1X2(β1,β2)Y^Y

现在假设,即它们是共线的。然后,由和确定的子空间只是一条直线,我们只有一个自由度。因此,我们无法按照要求确定两个值和。X1=2X2X1X2β1β2


2
我很久以前曾投票赞成,但重新阅读了您的答案后,使我想起我一直很喜欢Christensen(j.mp/atRp9w对复杂问题的平面答案
chl 2010年

@chl:太酷了,肯定会去看看。:)
ars 2010年

14

两个人正把一块巨石推上山坡。您想知道每个人都在努力。假设您看着他们一起推了十分钟,巨石移动了10英尺。第一个人做了所有工作,第二个人只是伪造了吗?或相反亦然?还是50-50?由于两种力正好在同一时间起作用,因此您无法分别分开任一者的力量。您只能说他们的合力为每分钟1英尺。

现在想象一下,第一个家伙自己先推一分钟,然后和第二个人推九分钟,最后一分钟就是第二个人推。现在,您可以在第一分钟和最后一分钟使用力的估计值来分别计算每个人的力。即使它们仍在很大程度上同时工作,但存在一些差异的事实使您可以估算每个力。

如果您看到每个人都独立推动了整整十分钟,那么与力量重叠大的情况相比,这将为您提供更精确的力量估算。

我留给读者练习,将这个案例扩展到一个推上坡而另一个推下坡的人(仍然有效)。

完美的多重线性防止您分别估计力。近多重线性会给您带来更大的标准误差。


6

我对此的思考方式实际上是在信息方面。说和都有关于一些信息。所述多个相关和彼此,关于更多的信息内容从和是相似的或重叠的,与对完全相关点和,实际上是相同的信息内容。如果现在将和放在相同的(回归)模型中以解释,则该模型将尝试“分配”以下信息:X1X2YX1X2YX1X2X1X2X1X2YX1,)在某种程度上任意包含和中的每一个约没有真正好的方法来分摊此信息,因为任何信息拆分仍会导致将总信息保留在模型中的(,)(对于完全相关的,这确实是一个无法识别的情况下)。这会导致和的各个系数的单个估计值不稳定,尽管如果您在许多次运行中查看预测值和估计X2YX1X2X1 X X 1 X 2 b 1 X 1 + b 2 X 2 b 1 b 2X2XX1X2b1X1+b2X2b1b2,这些将非常稳定。


4

我的(非常)外行直觉是,OLS模型需要在X变量中具有一定水平的“信号”才能检测到它为Y提供了“良好”的预测。如果相同的“信号”分布在许多X上(因为它们是相关的),那么任何相关的X都无法给出足够的“证明”(统计意义)以证明它是真实的预测变量。

前面的(很棒的)答案在解释为什么是这种情况方面做得很好。


3

假设两个人合作完成了科学发现。当两个完全不同的人(一个是理论家,另一个很擅长实验)​​时,很容易说出他们的独特贡献(谁做了什么),而当两个人完全不同时,就很难区分他们的独特影响(回归系数)。双胞胎的行为相似。


2

如果两个回归变量完全相关,则它们的系数将无法计算。考虑一下如果可以计算它们为什么将很难解释它们会很有帮助。实际上,这解释了为什么很难解释不完全相关但也不真正独立的变量。

假设我们的因变量是纽约的每日鱼类供应量,而我们的自变量包括一个用于当天是否下雨和一个用于当天购买的饵料量的变量。当我们收集数据时,我们没有意识到的是,每次下雨时,渔民都不会购买诱饵,而每当不下时,他们都会购买一定数量的诱饵。因此,Bait和Rain是完全相关的,当我们进行回归分析时,我们无法计算它们的系数。实际上,Bait和Rain可能不完全相关,但是如果不通过某种方式清除它们的内生性,我们就不想将它们都包括在内。


1

我认为虚拟变量陷阱提供了另一个有用的可能性来说明为什么多重共线性是一个问题。回想一下,当我们在模型中拥有一个恒定且完整的虚拟变量时,就会出现这种情况。然后,虚拟变量的总和等于一个常数,即多重共线性。

例如,男性假人,女性假人:

yi=β0+β1Mani+β2Womani+ui

的标准解释是将从0 更改为1 引起的的预期变化。同样,是将从0 更改为1 导致的的预期变化。 Ÿ 中号一个Ñ β 2 ý W¯¯ ø 一个Ñ β1YManiβ2YWomani

但是,应该代表什么呢?它是,所以对于既不是男人也不是女人的人来说,预期结果...可以肯定地说,对于几乎所有数据集,您都不会遇到提出一个有用的问题:-)。 È ÿ |中号一个Ñ = 0 w ^ ö 一个Ñ = 0 β0E(yi|Mani=0,Womani=0)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.