VIF,条件索引和特征值


15

我目前正在评估数据集中的多重共线性。

以下/上方的VIF和条件指数的阈值表示什么问题?

VIF: 我听说VIF 是一个问题。10

除去两个问题变量后,VIF是为每个变量。变量是否需要更多处理,或者这个VIF看起来还好吗?3.96

条件指数: 我听说条件指数(CI)为30或更大是一个问题。我的最高CI为16.66。这有问题吗?

其他问题:

  • 还有其他需要考虑的事项吗?
  • 还有其他需要记住的事情吗?

1
请澄清问题。特别是,这些是以前的评论:@chl-“您应该考虑编写明确的问题(它们本身很有趣),并附带一个确定的问题,并保留与您的原始问题相关的其他信息的评论,而不是遵循-上”。@shane发表的文章:“关于当前的问题:它也可以得到改进,因为它在没有清晰的通用线程的情况下被问了许多不同的问题。您是否对多共线性总体感兴趣?或者您对VIF感兴趣?为了清楚。”

Answers:


5

实际上,大多数计量经济学教科书都对多重共线性问题进行了深入研究。此外,维基百科上有一篇很好的文章,实际上总结了大多数关键问题。

XŤX

  1. 参数估计值发生较大变化,同时对数据的较小子样本执行滚动回归或估计
  2. ŤF
  3. [R2
  4. 条件指数是在你的情况下VIF替代既不VIF也不CI说明问题的左边,这样你就可以得到满足统计学上这样的结果,但是...

可能不是理论上的,因为可能会发生这种情况(通常是这种情况),因此您需要所有变量都存在于模型中。排除相关变量(遗漏变量问题)无论如何都会使参数估计产生偏差和不一致。另一方面,由于分析是基于此的,您可能被迫包括所有焦点变量。在数据挖掘方法中,尽管您在寻找最合适的方面更熟练。

因此,请记住其他选择(我会用我自己):

  1. 获得更多数据点(请记住,对于较大的数据集,VIF要求较小,并且解释变量如果变化缓慢,则可能会在某些关键时间点或横截面发生变化)
  2. 通过主成分搜索潜在因子(后者是正交组合,因此在构造上不是多重共线的,而且涉及所有解释变量)
  3. 岭回归(它在参数估计中引入了小的偏差,但使其高度稳定)

其他一些技巧在上述Wiki文章中。


3

我相信Belsely说,CI超过10表示可能存在中等问题,而超过30则更为严重。

但是,此外,您应该查看高条件索引中变量集所共享的方差。关于(涉及上一个变量和截距的共线性)是否有问题,是否将有问题的变量居中定位是否解决了问题或只是将其移至其他方面,存在着争论(或者是我上次阅读该文献)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.