检测共线性的不同方法的优点是什么?


11

我想检测共线性是否是我的OLS回归中的问题。我知道方差膨胀因子和条件指数是两种常用的度量,但是我发现很难找到每种方法的优劣或分数应该是确定的任何东西。

指出执行方法和/或适当分数的突出来源将非常有用。

“是否有理由偏爱多重共线性的特定度量?”时提出了类似的问题但是我理想的是可以引用一个参考。


4
请记住,共线性在很大程度上取决于程度,因此即使您找到的文本提供了一个不错的,可引用的数字,也不应该将其视为“没有问题”与“我们有问题”的硬性临界值。 ”。
银鱼

4
@Silverfish提供了很好的建议。Belsley,Kuh和Welsch还强调说,共线性即使存在也不一定有害:您必须确定它是否确实在引起分析问题。
ub

Answers:


11

Belsley,Kuh和Welsch是解决此类问题文字。它们在标题为“历史视角”的部分中包括对较旧诊断程序的广泛讨论。关于他们写的VIF

...如果我们假设数据已经居中,并调整为具有单位长度,相关矩阵仅仅是。...XRXX

我们正在考虑。的对角元素中,,通常被称为方差膨胀因子,,并从关系及其诊断值如下其中是在其余解释变量上回归的的倍数相关系数。显然,高VIF表示接近于1,因此指向共线性。因此,该措施在一定程度上可用作共线性的总体指示。它的弱点,例如R1=(XX)1R1riiVIFi

VIFi=11Ri2
Ri2XiRi2R的原因在于,它无法区分几种共存的近距离依赖关系,并且缺乏有意义的边界来区分可以认为是高的VIF值和可以认为低的VIF值。

代替分析(或),BKW建议对的奇异值分解进行仔细的受控检查。他们通过证明最大奇异值与最小奇异值之比是的条件数来激发它,并显示条件数如何在回归估计的计算中为计算误差的传播提供(有时是紧密的)界限。他们继续尝试将参数估计值的方差近似分解为与奇异值关联的分量。这种分解的力量在于(在许多情况下)揭示自然的能力RR1XXβ^i 共线性,而不只是表明它的存在。

任何使用数百个变量构建回归模型的人都将喜欢此功能!该软件说“您的数据是共线的,我无法继续进行”,甚至说“您的数据是共线的,我要扔掉以下变量”是一回事。能够说“变量这组导致计算不稳定的问题,这是一件非常有用的事情:看看您可以不考虑或考虑哪些变量”进行主成分分析以减少数量。”Xi1,,Xik

最终,BKW建议通过以下方法诊断共线性

...以下双重条件:

  1. 判断为具有较高条件指数的奇异值,并且与
  2. 两个或多个估计的回归系数方差的高方差分解比例。

在(1)中被认为较大(例如,大于)的条件索引的数量标识了数据矩阵各列之间的相依性数量,这些高条件索引的大小提供了其相对“紧密度”的度量。 ” 此外,在(2)中确定与每个高条件指数相关的大方差分解比例(例如,大于)可以确定那些与相应的近依存关系有关的变量,以及这些比例的大小与高水平相关。条件索引提供了对共线性的存在使相应回归估计值下降的程度的度量。30X0.5


10
  • 方差通货膨胀因子(VIF)易于理解。对所有其他的设计矩阵列进行回归,注意该模型的,计算,然后就可以了。VIF为10意味着您可以使用所有其他回归变量来解释一个预测变量的90%。这通常用作共线性的经验阈值。R21/(1R2)

    但是,通常采用的VIF不能告诉您截距的共线性,因为截距通常默默地包含在这些“帮助”回归中。此外,如果回归变量的VIF较高,则您不会立即知道哪些其他回归变量对共线性造成了影响。您需要在帮助程序回归中查看标准化系数。

  • Belsley,Kuh&Welsch(Belsley,DA; Kuh,E.&Welsch,RE 回归诊断:确定影响数据和共线性的来源, John Wiley&Sons,1980)的条件指数和共线性分解比例难得多。几年前,我曾经使用过这些工具,但是在没有得到复习的情况下,我不会尝试在这里解释它们;-)

    这些诊断确实允许检测与截距的共线性。然后,您可以研究共线性分解比例,以确定哪些其他回归变量负责某个给定回归变量的共线性。


谢谢-非常有用-您是否偶然发现VIF大于10的经验法则...我可以在大量的在线演讲笔记中找到,但找不到任何这样的内容。 。
凯里尼亚

@kyrenia“大于10”远不是我看到的唯一建议阈值!我想知道各个字段之间还是仅作者之间是否存在差异。
银鱼

3
2100

@whuber谢谢你。这是一个非常有趣的观察,并且与OP提出的问题高度相关:鉴于StackExchange系统中注释的“第二级”重要性,我认为您应该考虑将其纳入出色的答案中。
银鱼

6

对于广泛引用的参考文献,第117页的Faraway书提供了30的经验法则,用于根据条件数检测问题,而《统计学习入门》的第101页说,VIF值大于5或10表示存在问题。 。

与如何识别多重共线性相比,可能更重要的是如何处理多重共线性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.