我们什么时候可以说共线性


16

在线性模型中,我们需要检查解释变量之间是否存在关系。如果它们之间的相关性太大,则存在共线性(即,变量在某种程度上相互解释)。我目前仅查看每个解释变量之间的成对相关性。

问题1: 什么被归类为太多的相关性?例如,皮尔逊相关系数是否为0.5?

问题2: 我们是否可以根据相关系数完全确定两个变量之间是否存在共线性,或者它是否取决于其他因素?

问题3: 对两个变量的散点图进行图形检查是否会增加相关系数指示的内容?


2
3+变量之间的共线性(奇异性)不仅减少到高成对相关性。在站点上搜索标记为“ multicollinearity”的问题。另外,我建议您阅读我的答案:stats.stackexchange.com/a/70910/3277
ttnphns 2014年

Answers:



3

我对三个问题的看法是

问题1什么被归类为太多的相关性?例如:皮尔逊相关系数0.5是否太大?

许多作者认为(多重)共线性不是问题。在这里这里看看,以获得对该主题的相当苛刻的意见。最重要的是,多重共线性除了降低样本量(有效)外,对假设检验没有影响。例如,如果进行回归,将很难解释回归系数,但是如果选择回归,则不会违反任何基本假设。

问题2我们是否可以根据相关系数完全确定两个变量之间是否存在共线性,或者它是否取决于其他因素?

我认为,有两种方法可以测量两个变量之间的相关性,从计算Pearson的相关系数(如果假设线性,并且显然是这样做的)到Spearman的等级距离相关,甚至是对数据集进行PCA。但是我会把这个问题的答案留给比我更了解情况的人。

问题3对两个变量的散点图进行图形检查是否会增加相关系数指示的内容?

IMO,答案是否定的。


3
恕我直言,(3)的答案恰恰是非常有力的:虽然相关系数只能对关系的线性进行单个数值评估,但快速浏览散点图将提供大量有关该信息的附加信息关系,包括事先没有预期的行为。但是,对这组问题的真正兴趣在于如何评估三个或更多变量之间的关系(尽管(3)的实际用词方式),并且在那种情况下,散点图矩阵也无法显示所有内容,如@ttnphns所指出的。
ub

1
就(1)而言,我以不同的方式阅读了您对Dave Gile博客的引用:他认为对多重共线性的形式化测试是错误的。我看不到他声称多重共线性不是问题。
ub

我对Dave Gile答案的理解是,多重共线性影响结果的唯一方法是通过等效的较小样本量。因此,就像测试小样本样本没有意义,测试多重共线性的影响也没有意义。但是,我很高兴听到您对此的看法,也许我误解了。
pedrofigueira 2014年

好吧,对于大多数研究而言,需要更大的样本量可能会产生巨大的影响!接近共线性的微妙影响与模型构建和变量选择有关,如stats.stackexchange.com/questions/50537stats.stackexchange.com/a/28476/919等线程中所讨论的(尤其是)。但是,请确保我们正在谈论相同的事情:Giles正在讨论多重共线性的形式检验,就好像自变量是随机抽样的一样。这里的关注点似乎集中在使用多重共线性诊断来理解模型的功能和局限性。

1

评估共线性的一种常用方法是使用方差膨胀因子(VIF)。这可以在R中使用“汽车”包中的“ vif”功能来实现。与仅查看两个变量之间的相关性相比,这具有优势,因为它可以同时评估模型中一个变量与其余变量之间的相关性。然后,它会为您提供模型中每个预测变量的单个分数。

如上所述,没有硬性规定,但一旦VIF分数介于5到10之间,通常会被认为是有问题的。我为此使用特定领域的经验法则。而且-使用相关的预测变量并不一定没有任何无效(只要它们没有完全相关)。您将只需要更多数据来分离效果。当您没有足够的数据时,相关预测变量的参数估计将存在很大的不确定性,并且这些估计将对重新采样敏感。

具体回答您的问题:

  1. 不要使用相关系数。使用具有所有预测变量且没有交互作用的模型的VIF。5-10的VIF表示相关性过多,您的具体截止时间取决于您需要对模型进行的处理。

  2. 这取决于模型中的其他预测变量,这就是使用VIF有益的原因。

  3. 不!统计信息将更好地量化散点图所关注的内容。除非在使预测变量相互回归时完全违反OLS的假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.