使用非线性模型时,应该关注多重共线性吗?


13

假设我们有一个主要具有分类特征的二进制分类问题。我们使用一些非线性模型(例如XGBoost或Random Forests)来学习它。

  • 还应该关注多重共线性吗?为什么?
  • 如果上述答案是正确的,那么考虑到正在使用这些类型的非线性模型,应该如何应对?

Answers:


7

对于某些模型,多重共线性将不是问题。例如随机森林或决策树。例如,如果我们有两个相同的列,则决策树/随机森林将在每个拆分处自动“删除”一列。该模型仍然可以正常运行。

此外,正则化是“修复”多重共线性问题的一种方法。我的回答用于逻辑回归的正则化方法提供了详细信息。


5
我认为,如果您详细说明正则化正在“解决”的问题,那将会有所改善。
马修·德鲁里

2

晚了晚会,但这还是我的答案,是“是”,无论模型/方法是否线性,还是主要任务是预测或分类,都应始终关注共线性。

假设数据集中存在许多线性相关的协变量/特征,并且使用“随机森林”作为方法。显然,每个节点的随机选择可能仅(或大部分)选择共线特征,这可能/将导致不良分割,并且这种情况可能反复发生,从而对性能产生负面影响。

现在,共线特征可能比其他(非共线)特征对结果的信息少,因此无论如何应从特征集中消除它们。但是,假设这些功能在RF产生的“功能重要性”列表中排名较高。这样,它们将被保留在数据集中,从而不必要地增加了维数。因此,在实践中,我总是会作为探索性步骤(在许多相关功能中)检查特征的成对关联,包括线性关联。


我相信在某些情况下可以安全地忽略多重共线性,此处讨论了一些情况:statisticshorizo​​ns.com/multicollinearity
Nisha Arora博士,

0
  1. 还应该关注多重共线性吗?为什么?

如果非线性模型是基于树的模型,那么您不应认为它很严重。不同的树模型将具有不同的处理方法,例如随机森林将同时保留它们(因为它们独立地构建树,并为每棵树随机选择特征),但是即使您删除了树,它也不会影响预测性能。多余的一个。但是对于xgboost,它将选择其中的任何一个,并使用它直到最后一棵树。

  1. 如果上述答案是正确的,那么考虑到正在使用这些类型的非线性模型,应该如何应对?

它只是关于解释的意思,因此建议删除高度相关的变量。


-3

多重共线性始终是一个可能的问题。当模型中的预测变量与变量线性相关时(即,存在共线性时),将影响预测。


1
谢谢,如果(1)重点是预测性能(而不是可解释性),并且(2)模型是非线性的,您介意详细说明为什么这仍然会是一个问题吗?(以及它如何精确地表现出来?)
乔什(Josh

这些在模型中作为预测变量的变量在线性相关(即存在共线性)时将影响预测。
Michael R. Chernick

1
影响预测到底如何呢?顺便说一句,stats.stackexchange.com / a / 138082/99274,在您的答案中添加一些链接,或者面对“到那儿,就那样做”的人群的愤怒。
卡尔

7
由于分类与预测是如此紧密相关,并且预测往往不会遭受多重共线性的影响,因此重要的是要支持您的争论,因为它始终是“可能的问题”,尤其是对于问题中提到的特定模型。分类会出现什么问题,为什么?
呜呜叫声

12
我很确定你在乞求这个问题。Whuber问为什么预测会遭受多重共线性,而您基本上回答“预测遭受多重共线性是因为预测遭受多重共线性。”
马修·德鲁里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.