Answers:
对于某些模型,多重共线性将不是问题。例如随机森林或决策树。例如,如果我们有两个相同的列,则决策树/随机森林将在每个拆分处自动“删除”一列。该模型仍然可以正常运行。
此外,正则化是“修复”多重共线性问题的一种方法。我的回答用于逻辑回归的正则化方法提供了详细信息。
晚了晚会,但这还是我的答案,是“是”,无论模型/方法是否线性,还是主要任务是预测或分类,都应始终关注共线性。
假设数据集中存在许多线性相关的协变量/特征,并且使用“随机森林”作为方法。显然,每个节点的随机选择可能仅(或大部分)选择共线特征,这可能/将导致不良分割,并且这种情况可能反复发生,从而对性能产生负面影响。
现在,共线特征可能比其他(非共线)特征对结果的信息少,因此无论如何应从特征集中消除它们。但是,假设这些功能在RF产生的“功能重要性”列表中排名较高。这样,它们将被保留在数据集中,从而不必要地增加了维数。因此,在实践中,我总是会作为探索性步骤(在许多相关功能中)检查特征的成对关联,包括线性关联。
多重共线性始终是一个可能的问题。当模型中的预测变量与变量线性相关时(即,存在共线性时),将影响预测。