是否有理由倾向于使用特定的多重共线性度量?


22

在处理许多输入变量时,我们经常担心多重共线性。有多种多重共线性度量用于检测,考虑和/或传达多重共线性。一些常见的建议是:

  1. 特定变量 的倍数[RĴ2
  2. 特定变量 的公差1个-[RĴ2
  3. 特定变量 的方差膨胀因子VIF=1个公差
  4. 整个设计矩阵的条件号:

    最大(特征值(X'X))最小值(特征值(X'X))

(在Wikipedia文章中讨论了其他一些选项,在R的上下文中也有关于SO的讨论。)

前三个相互之间是完美的功能,这表明它们之间唯一可能的净利益是心理上的。另一方面,前三个允许您单独检查变量,这可能是一个优点,但是我听说条件编号方法被认为是最好的。

  • 这是真的?最适合什么?
  • 条件数是的理想函数吗?(我想会的。) [RĴ2
  • 人们是否发现其中之一最容易解释?(我从来没有尝试过在课外解释这些数字,我只是对多重共线性给出了一个宽松的,定性的描述。)

:我已经发布了相关的跟进问题,并回答是补充的是已经在这里stats.stackexchange.com/questions/173665/...
凯里尼亚

Answers:


15

早在1990年代末,我就共线性做了论文。

我的结论是,条件指标是最好的。

主要原因是,您可以查看变量,而不是查看单个变量。由于共线性是变量集的函数,所以这是一件好事。

同样,我的蒙特卡洛研究的结果显示出对有问题的共线性的敏感性更高,但是我很久以前就忘记了细节。

[R2

有关更多信息,请查看David Belsley的书籍。或者,如果您确实愿意,可以获取我的论文多元共线性诊断:多元回归:蒙特卡洛研究


1
那么,在这里查看VIF可能是您会错误地认为多重共线性不是问题,但是如果您查看了条件编号,您将更有可能得出正确的结论吗?也许像是具有更高统计功效的测试?
gung-恢复莫妮卡

4
+1。幸运的是,为了解释条件编号,我们在该站点上已有一个出色的帖子:这是在设计变量的二阶描述中发现的最大失真,即点云。畸变越大,点往往位于子空间内。这种几何学见解还显示了为什么居中设计矩阵的条件比原始设计矩阵本身的条件更好。
whuber

1
好吧,很难确切地定义“正确”的结论是什么。但是它应该与数据的细微变化有关,从而在输出中产生较大的变化。我记得,条件索引与此直接相关。但是最大的事情是获得方差比例,使您可以看到变量集及其共线性程度。(当然,那是14年前的一切。。。。但是我认为情况没有改变。措施是一样的。但是我的记忆可能并不完美)。
彼得·弗洛姆

3
Gung,这里的一个关键点是条件编号与坐标无关:在数据的(线性)线性重组下,条件编号保持不变。因此,它可能无法表达有关单个变量的任何信息,但必须捕获整个集合的属性。因此,使用它可以部分避免使您被变量表达的方式所误导。
Whuber

1
我已经被淹没了以至于无法完成你的论文,但是到目前为止,它确实很有帮助。再次感谢。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.