Answers:
这是正确的,但是因此在变量Y可用的大多数子采样中,它将产生最佳的分割。
您可以尝试增加mtry,以确保更频繁地发生这种情况。
您可以尝试递归变量重要性修剪,即依次删除,例如20%的变量重要性最低。尝试使用来自randomForest软件包的rfcv。
您可以尝试对冗余变量进行一些分解/汇总。
旧线程,但我不同意笼统的声明,即共线性不是随机森林模型的问题。当数据集具有两个(或多个)相关特征时,则从模型的角度来看,这些相关特征中的任何一个都可用作预测变量,而没有一个相对于其他特征的具体偏好。
但是,一旦使用了它们中的一个,其他元素的重要性就大大降低了,因为有效地去除了它们可以去除的杂质已经被第一个特征去除了。
结果,它们的重要性将降低。当我们要使用特征选择来减少过度拟合时,这不是问题,因为删除大部分由其他特征重复的特征是有意义的,但是在解释数据时,可能导致错误的结论,即变量之一是一个强有力的预测指标,而同一组中的其他指标则不重要,而实际上,它们与响应变量之间的关系却非常接近。
由于在每个节点创建时随机选择了特征,因此这种现象的影响有所降低,但通常效果并未完全消除。
上面的内容主要是从这里抄写的:选择好的功能
multicollinearity
对随机森林模型没有影响。例如,在这里,最受支持的答案是:“高度共线性的变量不会损害随机森林模型的任何部分”。这是否有效?