在线性模型中,我们需要检查解释变量之间是否存在关系。如果它们之间的相关性太大,则存在共线性(即,变量在某种程度上相互解释)。我目前仅查看每个解释变量之间的成对相关性。
问题1: 什么被归类为太多的相关性?例如,皮尔逊相关系数是否为0.5?
问题2: 我们是否可以根据相关系数完全确定两个变量之间是否存在共线性,或者它是否取决于其他因素?
问题3: 对两个变量的散点图进行图形检查是否会增加相关系数指示的内容?
在线性模型中,我们需要检查解释变量之间是否存在关系。如果它们之间的相关性太大,则存在共线性(即,变量在某种程度上相互解释)。我目前仅查看每个解释变量之间的成对相关性。
问题1: 什么被归类为太多的相关性?例如,皮尔逊相关系数是否为0.5?
问题2: 我们是否可以根据相关系数完全确定两个变量之间是否存在共线性,或者它是否取决于其他因素?
问题3: 对两个变量的散点图进行图形检查是否会增加相关系数指示的内容?
Answers:
查看您的数据总是很聪明,而不仅仅是数字汇总/测试结果。规范的参考文献是Anscomb的四重奏。
我对三个问题的看法是
问题1什么被归类为太多的相关性?例如:皮尔逊相关系数0.5是否太大?
许多作者认为(多重)共线性不是问题。在这里和这里看看,以获得对该主题的相当苛刻的意见。最重要的是,多重共线性除了降低样本量(有效)外,对假设检验没有影响。例如,如果进行回归,将很难解释回归系数,但是如果选择回归,则不会违反任何基本假设。
问题2我们是否可以根据相关系数完全确定两个变量之间是否存在共线性,或者它是否取决于其他因素?
我认为,有两种方法可以测量两个变量之间的相关性,从计算Pearson的相关系数(如果假设线性,并且显然是这样做的)到Spearman的等级,距离相关,甚至是对数据集进行PCA。但是我会把这个问题的答案留给比我更了解情况的人。
问题3对两个变量的散点图进行图形检查是否会增加相关系数指示的内容?
IMO,答案是否定的。
评估共线性的一种常用方法是使用方差膨胀因子(VIF)。这可以在R中使用“汽车”包中的“ vif”功能来实现。与仅查看两个变量之间的相关性相比,这具有优势,因为它可以同时评估模型中一个变量与其余变量之间的相关性。然后,它会为您提供模型中每个预测变量的单个分数。
如上所述,没有硬性规定,但一旦VIF分数介于5到10之间,通常会被认为是有问题的。我为此使用特定领域的经验法则。而且-使用相关的预测变量并不一定没有任何无效(只要它们没有完全相关)。您将只需要更多数据来分离效果。当您没有足够的数据时,相关预测变量的参数估计将存在很大的不确定性,并且这些估计将对重新采样敏感。
具体回答您的问题:
不要使用相关系数。使用具有所有预测变量且没有交互作用的模型的VIF。5-10的VIF表示相关性过多,您的具体截止时间取决于您需要对模型进行的处理。
这取决于模型中的其他预测变量,这就是使用VIF有益的原因。
不!统计信息将更好地量化散点图所关注的内容。除非在使预测变量相互回归时完全违反OLS的假设。