我想检测共线性是否是我的OLS回归中的问题。我知道方差膨胀因子和条件指数是两种常用的度量,但是我发现很难找到每种方法的优劣或分数应该是确定的任何东西。
指出执行方法和/或适当分数的突出来源将非常有用。
在“是否有理由偏爱多重共线性的特定度量?”时提出了类似的问题。但是我理想的是可以引用一个参考。
我想检测共线性是否是我的OLS回归中的问题。我知道方差膨胀因子和条件指数是两种常用的度量,但是我发现很难找到每种方法的优劣或分数应该是确定的任何东西。
指出执行方法和/或适当分数的突出来源将非常有用。
在“是否有理由偏爱多重共线性的特定度量?”时提出了类似的问题。但是我理想的是可以引用一个参考。
Answers:
Belsley,Kuh和Welsch是解决此类问题的文字。它们在标题为“历史视角”的部分中包括对较旧诊断程序的广泛讨论。关于他们写的VIF
...如果我们假设数据已经居中,并调整为具有单位长度,相关矩阵仅仅是。...
我们正在考虑。的对角元素中,,通常被称为方差膨胀因子,,并从关系及其诊断值如下其中是在其余解释变量上回归的的倍数相关系数。显然,高VIF表示接近于1,因此指向共线性。因此,该措施在一定程度上可用作共线性的总体指示。它的弱点,例如
的原因在于,它无法区分几种共存的近距离依赖关系,并且缺乏有意义的边界来区分可以认为是高的VIF值和可以认为低的VIF值。
代替分析(或),BKW建议对的奇异值分解进行仔细的受控检查。他们通过证明最大奇异值与最小奇异值之比是的条件数来激发它,并显示条件数如何在回归估计的计算中为计算误差的传播提供(有时是紧密的)界限。他们继续尝试将参数估计值的方差近似分解为与奇异值关联的分量。这种分解的力量在于(在许多情况下)揭示自然的能力 共线性,而不只是表明它的存在。
任何使用数百个变量构建回归模型的人都将喜欢此功能!该软件说“您的数据是共线的,我无法继续进行”,甚至说“您的数据是共线的,我要扔掉以下变量”是一回事。能够说“变量这组导致计算不稳定的问题,这是一件非常有用的事情:看看您可以不考虑或考虑哪些变量”进行主成分分析以减少数量。”
最终,BKW建议通过以下方法诊断共线性
...以下双重条件:
- 判断为具有较高条件指数的奇异值,并且与
- 两个或多个估计的回归系数方差的高方差分解比例。
在(1)中被认为较大(例如,大于)的条件索引的数量标识了数据矩阵各列之间的相依性数量,这些高条件索引的大小提供了其相对“紧密度”的度量。 ” 此外,在(2)中确定与每个高条件指数相关的大方差分解比例(例如,大于)可以确定那些与相应的近依存关系有关的变量,以及这些比例的大小与高水平相关。条件索引提供了对共线性的存在使相应回归估计值下降的程度的度量。
方差通货膨胀因子(VIF)易于理解。对所有其他的设计矩阵列进行回归,注意该模型的,计算,然后就可以了。VIF为10意味着您可以使用所有其他回归变量来解释一个预测变量的90%。这通常用作共线性的经验阈值。
但是,通常采用的VIF不能告诉您截距的共线性,因为截距通常默默地包含在这些“帮助”回归中。此外,如果回归变量的VIF较高,则您不会立即知道哪些其他回归变量对共线性造成了影响。您需要在帮助程序回归中查看标准化系数。
Belsley,Kuh&Welsch(Belsley,DA; Kuh,E.&Welsch,RE 回归诊断:确定影响数据和共线性的来源, John Wiley&Sons,1980)的条件指数和共线性分解比例要难得多。几年前,我曾经使用过这些工具,但是在没有得到复习的情况下,我不会尝试在这里解释它们;-)
这些诊断确实允许检测与截距的共线性。然后,您可以研究共线性分解比例,以确定哪些其他回归变量负责某个给定回归变量的共线性。