Answers:
考虑多元共线性在回归分析中很重要,因为在极值中,它直接取决于您的系数是否在数据中唯一标识。在不太严重的情况下,它仍然会干扰您的系数估算;用于估算的数据的细微变化可能会导致估算系数的剧烈波动。从推论的角度来看,这可能是有问题的:如果两个变量高度相关,则一个变量的增加可能会被另一个变量的减少所抵消,因此,合并后的效果将相互抵消。使用两个以上的变量,效果可能更加微妙,但是如果预测是稳定的,那么对于机器学习应用程序来说通常就足够了。
考虑为什么我们在回归情况下正规化:我们需要从正在收缩模型过于灵活。应用正确量的正则化将略微增加偏差,从而大幅减少方差。典型的例子是在回归中添加多项式项和交互作用:在退化的情况下,预测方程将对数据点进行插值,但是在尝试预测看不见的数据点的值时可能会很糟糕。缩小这些系数可能会最小化或完全消除其中一些系数,并提高泛化性。
但是,通过在每个分割处采样的变量数量,可以看到随机森林具有正则化参数:分割越大,分割越好mtry
(更好的功能可供选择;某些功能比其他功能更好),但是使得每棵树与彼此之间的关联度更高,从而在某种程度上减轻了首先估计多棵树的多样化影响。这个难题迫使人们找到正确的平衡,通常使用交叉验证来实现。重要的是,与回归分析相反,随机森林模型的任何部分都不会受到高度共线性的变量的损害:即使其中两个变量提供相同的子节点纯度,您也可以选择一个而不会降低结果的质量。
同样,对于SVM之类的内容,可以包含比特征更多的预测变量,因为内核技巧可以使您仅对那些特征向量的内积进行运算。在回归分析中,具有比观测更多的特征将是一个问题,但是内核技巧意味着我们仅估计每个示例的系数,而正则化参数降低了解决方案的灵活性-这是一件好事,因为估计参数对于以不受限制的方式进行观察将始终会生成关于测试数据的完美模型-然后我们将整个过程转回脊线/ LASSO /弹性净回归场景,在该场景中,我们将模型的灵活性作为对过分乐观的模型的检验而受到了限制。回顾SVM问题的KKT条件,可以发现SVM解决方案是唯一的,因此我们不必担心在回归案例中出现的标识问题。
最后,考虑多重共线性的实际影响。它不会改变模型的预测能力(至少在训练数据上),但确实会影响我们的系数估计。在大多数机器学习应用中,我们并不关心系数本身,只是失去了模型预测,因此从这种意义上讲,检查VIF并没有真正回答相应的问题。(但是,如果数据的微小变化导致系数[多重共线性的典型症状]发生巨大波动,那么它也可能会更改预测,在这种情况下,我们确实会在意-但是,[我们希望!]的所有这些特征在我们执行交叉验证,这始终是建模过程的一部分。)更容易解释回归,但是对于某些任务来说,解释可能不是最重要的目标。
原因是因为“传统统计”的目标不同于许多机器学习技术。
通过“传统统计”,我假设您是指回归及其变体。在回归中,我们试图了解自变量对因变量的影响。如果存在很强的多重共线性,那就根本不可能。没有算法可以解决此问题。如果好学程度与班级出勤率和学业成绩相关联,我们就无法知道真正导致成绩提高的因素是出勤率或好学率。
但是,在专注于预测准确性的机器学习技术中,我们关心的只是如何使用一组变量来预测另一组。我们不在乎这些变量相互之间的影响。
基本上,我们不检查机器学习技术中的多重共线性这一事实不是算法的结果,而是目标的结果。通过注意到变量之间的强共线性不会损害回归方法的预测准确性,您可以看到这一点。
这里似乎存在一个基本假设,即不检查共线性是合理的甚至最佳实践。这似乎是有缺陷的。例如,在具有许多预测变量的数据集中检查完美的共线性将揭示两个变量是否实际上是同一事物,例如出生日期和年龄(示例取自Dormann等人(2013年),《生态学》,第36卷,第1期,第27-46页)。我有时还看到在Kaggle竞赛中出现完全相关的预测变量的问题,论坛上的竞争对手试图消除已匿名的潜在预测变量(即,隐藏了预测变量标签,这是Kaggle和类似Kaggle竞赛中的常见问题)。
机器学习中还有一项活动是选择预测变量-识别高度相关的预测变量可能使工作人员找到作为另一个基础(隐藏)变量的代理的预测变量,并最终找到一个最能代表潜在变量或变量的变量。或者,建议可以组合的变量(例如,通过PCA)。
因此,我建议尽管机器学习方法通常(或至少经常)被设计成在面对相关预测变量时具有鲁棒性,但了解预测变量的相关程度通常是生成鲁棒且准确的模型的有用步骤,对于获得优化的模型非常有用。
多重共线性的主要问题是它弄乱了自变量的系数(β)。这就是为什么当您研究变量之间的关系,建立因果关系等时,这是一个严重的问题。
但是,如果您对了解这种现象不感兴趣,而仅专注于预测和预测,那么多重共线性就不是问题了。或者至少那是人们对此的看法。
我这里不是在讨论完美的多重共线性,这是一个技术问题或识别问题。从技术上讲,这仅意味着设计矩阵会导致奇异性,并且未定义解决方案。
这些机器学习中的正则化可稳定回归系数,因此至少可以抑制多重共线性的影响。但是更重要的是,如果您要进行预测(机器学习者经常是哪个人),那么多重共线性“问题”首先并不是大问题。当您需要估计特定系数而又没有信息时,这是一个问题。
另外,我对“ LASSO何时选择相关预测变量 ”的回答可能对您有所帮助。