在多元回归中如何处理预测变量之间的高度相关性?


18

我在类似这样的文章中找到了参考:

根据Tabachnick&Fidell(1996),双变量相关性大于.70的自变量不应包含在多元回归分析中。

问题:我在多元回归设计中使用了3个> .80的变量,VIF在.2-.3左右,公差〜4-5。我不能排除其中的任何变量(重要的预测变量和结果)。当我对两个相关系数为.80的结果进行回归分析时,它们均保持显着性,每个预测重要方差,并且在包含的所有10个变量中,这两个变量具有最大的部分和半部分的相关系数(5个对照组)。

问题:尽管相关性很高,我的模型仍然有效吗?任何引用都非常欢迎!


感谢您的回答!

我没有使用Tabachnick和Fidell作为准则,而是在一篇涉及预测变量之间高共线性的文章中找到了此参考。

因此,基本上,对于模型中预测变量的数量,我的案例太少了(许多分类的,伪编码的控制变量-年龄,任期,性别等)-72个案例中的13个变量。所有控件都在其中时,条件索引为〜29,而没有控件时则为〜23(5个变量)。

我不能删除任何变量或使用阶乘分析来组合它们,因为从理论上讲,它们具有自身的意义。现在获取更多数据为时已晚。由于我是在SPSS中进行分析的,因此也许最好是找到岭回归的语法(尽管我以前没有做过,对结果的解释对我来说是新的)。

如果很重要,当我进行逐步回归时,相同的2个高度相关的变量仍然是结果的唯一重要预测指标。

而且我仍然不明白这些变量中每个变量的偏相关性是否重要,这可以解释为什么我将它们保留在模型中(以防无法进行岭回归)。

您是否会说“回归诊断:确定共线性的影响数据和来源/ David A. Belsley,Edwin Kuh和Roy E. Welsch,1980”将有助于理解多重共线性?还是其他参考可能有用?


2
有关这种情况的明确示例,请参阅stats.stackexchange.com/a/14528上的10个IV的分析。在此,所有 IV均具有高度相关性(约60%)。但是,如果将所有这些都排除在外,您将一无所有!通常情况下,您无法删除任何这些变量。这使得T&F建议不成立。
ub

的确,在塔巴克尼克(Tabachnick)和菲德尔(Fidell)中有许多声明,我认为它们至少有些可疑...仅仅因为书中印有某些东西并不意味着它总是有意义的。
Glen_b-恢复莫妮卡2015年

Answers:


20

关键问题不是相关性而是共线性(例如,参见Belsley的著作)。最好使用条件索引(也可在和RSAS以及其他程序中使用)进行测试。相关性既不是共线性的必要条件也不是充分条件。超过10(根据Belsley)的条件索引表示中等共线性,超过30表示严重共线性,但它也取决于共线性涉及哪些变量。

如果您发现高共线性,则意味着您的参数估计值不稳定。也就是说,数据中的小变化(有时在第4个有效数字处)可能会导致参数估计值发生大变化(有时甚至会反转其符号)。这是一件坏事。

解决方法是1)获取更多数据2)删除一个变量3)组合变量(例如,使用偏最小二乘)和4)执行岭回归,这会产生有偏差的结果,但会减少估计值的方差。


Tabachnick和Fidell为社会科学写了一本不错的多元书。他们不是统计学家,但他们对多元知识的了解很不错。但是我认为他们可能会创建简化的经验法则,并且可能会漏掉统计上的细微差别。因此,我将比彼得在论文中更多地依赖彼得在他的回答中所说的话。
Michael R. Chernick 2012年

谢谢@MichaelChernick。我实际上写了关于多重回归的共线性诊断的论文。
彼得·弗洛姆-恢复莫妮卡

我认为您和我一样大,因此您的工作是在Belsley,Kuh,Welsch和Cook的工作之后进行的。我知道库克的工作主要是在其他诊断问题上(杠杆和非正态性),但是他是否在多重共线性上做任何事情?当然岭回归的概念,甚至可以追溯到以前我的时间
迈克尔·Chernick

1
@Peter Flom:为什么关联不是共线性的必要条件还是充分条件?您是指非线性相关吗?
朱利安

5
这是没有必要的,因为如果存在大量变量,则所有对都只能稍微相关,而它们的总和却是完全共线性的。这还不够,因为在某些情况下,较高的相关性不会按条件索引产生麻烦的共线性
彼得·弗洛姆(Peter Flom)-恢复莫妮卡(Monica)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.