随机森林中高度相关的变量会不会扭曲准确性和特征选择?


32

据我了解,高度相关的变量不会在随机森林模型中引起多重共线性问题(如果我做错了,请纠正我)。但是,另一方面,如果我有太多包含相似信息的变量,那么模型在此集合上的权重会比其他集合高吗?

例如,有两组具有相同预测能力的信息(A,B)。变量X 2,...全部包含信息A,只有Y包含信息B。当随机采样变量时,大多数树将在信息A上生长,结果信息B不完全被抓?X1X2X1000

Answers:


19

这是正确的,但是因此在变量Y可用的大多数子采样中,它将产生最佳的分割。

您可以尝试增加mtry,以确保更频繁地发生这种情况。

R2<.7

您可以尝试递归变量重要性修剪,即依次删除,例如20%的变量重要性最低。尝试使用来自randomForest软件包的rfcv。

您可以尝试对冗余变量进行一些分解/汇总。


3
在某些来源中,我认为multicollinearity对随机森林模型没有影响。例如,在这里,最受支持的答案是:“高度共线性的变量不会损害随机森林模型的任何部分”。这是否有效?
Hunle '16

5
我认为您从字面上看也是。RF模型可以很好地处理相关/冗余变量,是的。但这并不意味着您的模型必然会受益于不相关或完全冗余的变量(例如线性重组),它也不会崩溃。我只主张进行适度的变量选择,以期望交叉验证模型性能的适度改进。
索伦·哈弗隆德·威灵

24

旧线程,但我不同意笼统的声明,即共线性不是随机森林模型的问题。当数据集具有两个(或多个)相关特征时,则从模型的角度来看,这些相关特征中的任何一个都可用作预测变量,而没有一个相对于其他特征的具体偏好。

但是,一旦使用了它们中的一个,其他元素的重要性就大大降低了,因为有效地去除了它们可以去除的杂质已经被第一个特征去除了。

结果,它们的重要性将降低。当我们要使用特征选择来减少过度拟合时,这不是问题,因为删除大部分由其他特征重复的特征是有意义的,但是在解释数据时,可能导致错误的结论,即变量之一是一个强有力的预测指标,而同一组中的其他指标则不重要,而实际上,它们与响应变量之间的关系却非常接近。

由于在每个节点创建时随机选择了特征,因此这种现象的影响有所降低,但通常效果并未完全消除。

上面的内容主要是从这里抄写的:选择好的功能


3
这是我关于RF进行特征选择的文章,因为变量重要性经常被用作度量标准bmcbioinformatics.biomedcentral.com/articles/10.1186/… 自两年前以来,我对特征选择更加持怀疑态度。特征选择产生了过分乐观的交叉-validation(如果未在适当的外部交叉验证循环中完成)。如果做得正确,我通常看不到或只有很少的预测性能优化。现在,我主要使用特征选择来简化生产中的预测机器或使最终模型更加透明。
Soren Havelund Welling

@SorenHavelundWelling - You say that "Feature selection yields overoptimistic cross-validation if not done within a proper outer cross-validation loop". Can you explain that, or refer to a source explaining that? It goes against everything I've read so far...
Jack Fleeting

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.