Wiki讨论了当多重共线性是线性回归中的一个问题时出现的问题。基本问题是多重共线性会导致参数估计不稳定,这使得很难评估自变量对因变量的影响。
我理解的问题背后的技术原因(可能无法反转,病态等),但我正在寻找这个问题的一个比较直观的(也许是几何?)的解释。X ' X
关于在线性回归的背景下多重共线性为什么有问题,是否存在一种几何的或也许其他易于理解的解释形式?
Wiki讨论了当多重共线性是线性回归中的一个问题时出现的问题。基本问题是多重共线性会导致参数估计不稳定,这使得很难评估自变量对因变量的影响。
我理解的问题背后的技术原因(可能无法反转,病态等),但我正在寻找这个问题的一个比较直观的(也许是几何?)的解释。X ' X
关于在线性回归的背景下多重共线性为什么有问题,是否存在一种几何的或也许其他易于理解的解释形式?
Answers:
考虑最简单的情况,其中对于和回归,并且和高度正相关。然后,很难将对的影响与对的影响区分开,因为任何增加都倾向于与的增加相关。X Z X Z X Y Z Y X Z
另一种看待此问题的方法是考虑方程式。如果我们写,则系数是在保持不变的情况下,每增加一个单位,的增加量。但在实践中,往往是不可能拿着常数之间的正相关关系和意味着,在增加一个单位通常伴随着一些增加在同一时间。b 1 Y X Z Z X Z X Z
类似的但更复杂的解释适用于其他形式的多重共线性。
我曾经吃过寿司,以为可以很好地直观说明病态的问题。假设您想用两个棍棒向某人展示飞机,他们的脚底触碰了他们。
您可能会握住彼此正交的棍子。您的手在飞机上晃动的任何影响都会使其在您希望向人们展示的内容周围摇摆一些,但是在观看了一段时间之后,他们对您打算展示的飞机有了一个很好的了解。
但是,假设您将木棍的两端拉得更近一些,并观察手颤抖的效果。它形成的平面将更加疯狂地倾斜。您的观众将需要观看更长的时间才能更好地了解您要展示的飞机。
几何方法是考虑在由跨越的子空间上的最小二乘投影。
假设您有一个模型:
我们的估计空间是由向量和确定的平面,问题是要找到与描述向量对应的坐标,在该平面上的最小二乘投影。 X 2(β 1,β 2)ÿ ÿ
现在假设,即它们是共线的。然后,由和确定的子空间只是一条直线,我们只有一个自由度。因此,我们无法按照要求确定两个值和。
两个人正把一块巨石推上山坡。您想知道每个人都在努力。假设您看着他们一起推了十分钟,巨石移动了10英尺。第一个人做了所有工作,第二个人只是伪造了吗?或相反亦然?还是50-50?由于两种力正好在同一时间起作用,因此您无法分别分开任一者的力量。您只能说他们的合力为每分钟1英尺。
现在想象一下,第一个家伙自己先推一分钟,然后和第二个人推九分钟,最后一分钟就是第二个人推。现在,您可以在第一分钟和最后一分钟使用力的估计值来分别计算每个人的力。即使它们仍在很大程度上同时工作,但存在一些差异的事实使您可以估算每个力。
如果您看到每个人都独立推动了整整十分钟,那么与力量重叠大的情况相比,这将为您提供更精确的力量估算。
我留给读者练习,将这个案例扩展到一个推上坡而另一个推下坡的人(仍然有效)。
完美的多重线性防止您分别估计力。近多重线性会给您带来更大的标准误差。
我对此的思考方式实际上是在信息方面。说和都有关于一些信息。所述多个相关和彼此,关于更多的信息内容从和是相似的或重叠的,与对完全相关点和,实际上是相同的信息内容。如果现在将和放在相同的(回归)模型中以解释,则该模型将尝试“分配”以下信息:,)在某种程度上任意包含和中的每一个约没有真正好的方法来分摊此信息,因为任何信息拆分仍会导致将总信息保留在模型中的(,)(对于完全相关的,这确实是一个无法识别的情况下)。这会导致和的各个系数的单个估计值不稳定,尽管如果您在许多次运行中查看预测值和估计 X X 1 X 2 b 1 X 1 + b 2 X 2 b 1 b 2,这些将非常稳定。
如果两个回归变量完全相关,则它们的系数将无法计算。考虑一下如果可以计算它们为什么将很难解释它们会很有帮助。实际上,这解释了为什么很难解释不完全相关但也不真正独立的变量。
假设我们的因变量是纽约的每日鱼类供应量,而我们的自变量包括一个用于当天是否下雨和一个用于当天购买的饵料量的变量。当我们收集数据时,我们没有意识到的是,每次下雨时,渔民都不会购买诱饵,而每当不下时,他们都会购买一定数量的诱饵。因此,Bait和Rain是完全相关的,当我们进行回归分析时,我们无法计算它们的系数。实际上,Bait和Rain可能不完全相关,但是如果不通过某种方式清除它们的内生性,我们就不想将它们都包括在内。
我认为虚拟变量陷阱提供了另一个有用的可能性来说明为什么多重共线性是一个问题。回想一下,当我们在模型中拥有一个恒定且完整的虚拟变量时,就会出现这种情况。然后,虚拟变量的总和等于一个常数,即多重共线性。
例如,男性假人,女性假人:
的标准解释是将从0 更改为1 引起的的预期变化。同样,是将从0 更改为1 导致的的预期变化。 Ÿ 中号一个Ñ 我β 2 ý W¯¯ ø 米一个Ñ 我
但是,应该代表什么呢?它是,所以对于既不是男人也不是女人的人来说,预期结果...可以肯定地说,对于几乎所有数据集,您都不会遇到提出一个有用的问题:-)。 È (ÿ 我|中号一个Ñ 我 = 0 ,w ^ ö 米一个Ñ 我 = 0 )