我可以简单地删除两个高度线性相关的预测变量之一吗?


18

使用Pearson的相关系数,我有几个高度相关的变量(模型中2对变量的和)。ρ=0.978ρ=0.989

原因的一些变量是高度相关的,因为是一个变量的使用的计算为另一个变量。

例:

B=V/3000E=VD

B和具有Eρ=0.989

我有可能只是“扔掉”其中一个变量吗?

Answers:


26

B和E都是从V派生的。B和E显然不是彼此真正的“独立”变量。在这里真正重要的基础变量是V。在这种情况下,您可能不应该同时使用B和E并仅保留V。

在更普遍的情况下,当您有两个高度相关的自变量时,您肯定应该删除其中一个,因为您遇到了多重共线性难题,并且与两个高度相关的变量相关的回归模型的回归系数将不可靠。同样,用简单的英语来说,如果两个变量之间的相关性很高,它们显然会为回归模型提供几乎完全相同的信息。但是,通过同时包含这两者,您实际上在削弱模型。您没有添加增量信息。相反,您正在为模型注入噪声。不好

您可以在模型中保留高度相关的变量的一种方法是使用主成分分析(PCA)模型而不是回归模型。制作PCA模型是为了摆脱多重共线性。需要权衡的是,您最终会在模型中拥有两个或三个主要组成部分,这些主要组成部分通常只是数学构造,并且在逻辑上几乎是不可理解的。因此,每当您必须将结果提交给外部人员(例如管理层,监管机构等)时,PCA便经常被废弃为一种方法。PCA模型创建了难以解释的神秘黑匣子。


1
(+1)解释PCA。
steffen 2010年

1
谢谢,这是一个很好的解释。我已经听说过PCA,但是这是我正在参加的“回归”研究生课程的最终项目,而教授只是希望我们使用LR。无论如何,我非常感谢PCA的解释,并且可能会自己使用它来娱乐。
TheCloudlessSky

3
在某些情况下,此答案中的建议不起作用。例如,如果真实关系为Y = B + E = V / 3000 + V * D,该怎么办?然后,由于数据集中V和D的范围,变量恰好具有高度相关性-这是(或可能是)纯偶然事件-而丢弃B或E之一将导致错误的模型。简而言之,“依赖性”通常不是从模型中删除某些变量的有效理由;包括强因变量不一定会使模型“弱化”;PCA并非总是出路。
ub

@whuber,我不确定我是否同意您的意见。我认为“依赖性”通常是从回归模型中删除一些变量的相当有效的理由。否则,您的回归系数将不可靠。在您使用的示例中,回归可能会遇到问题,一个简单的解决方案是将整个表达式(V / 3000 + V * D)用作单个变量。
Sympa,2010年

3
更一般而言,如果模型为beta1 *(V / 3000)+ beta2 *(V D),则您不能这样做:换句话说,您的建议假设您知道系数之间的线性约束。的确,回归系数可以具有相对较大的VIF或标准误差,但是具有足够的数据量或经过精心选择的观察结果,估计值将足够可靠。 因此,我们同意存在一个问题,并且实际上,我同意您的解决方案作为要考虑的几种替代方案之一。我不同意这与您提出的一样普遍和必要。
ub

7

从机器学习者的角度来看,这是一个答案,尽管我恐怕会因此而被真正的统计学家击败。

我有可能只是“扔掉”其中一个变量吗?

好吧,问题是您要使用哪种类型的模型进行预测。这取决于...

  • 模型可以具有相关的预测变量吗?例如,尽管NaiveBayes理论上存在相关变量的问题,但实验表明它仍然可以很好地运行。
  • 模型如何处理预测变量?例如,B和V之间的差异将在概率密度估计中归一化,取决于D的方差,E和V可能相同(如欣快感所述)
  • B和E的哪种用法组合(一个,一个,都不是,两者)都能产生最佳结果,这是通过仔细的交叉验证+对保留集进行的测试来估计的?

有时,我们会让机器学习者甚至进行遗传优化,以找到一组预测变量的最佳算术组合。


7

B是V的线性变换。E表示V和D之间的相互作用。您是否考虑过指定一个模型,即Y =截距+ V + D + V:D?正如@ euphoria83所建议的,D似乎没有什么变化,因此它可能无法解决您的问题;但是,至少应该使V和D的独立贡献明确。确保事先将V和D居中。


4
+1:这不仅是解决问题的一种好方法,而且表明抛弃变量并不总是解决共线性问题的正确(甚至是一种好的)方法。
ub

0

如果D不是常数,则由于D的变化,B和E实际上是两个不同的变量。高相关性表明D在整个训练数据中实际上都是恒定的。如果是这种情况,则可以丢弃B或E。


1
D=n12N2n2

如果丢弃B或E并将它们视为等价,那么您就暗指V才是真正重要的。在这种情况下,最好将B保留在模型中,因为它的解释很明确。此外,如果您保留E,但d实际上具有有限的方差,你的结果的解释的有效性会更加犯罪嫌疑人(比以往)为D.不同的价值观
russellpierce
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.