我正在尝试使用R中的随机森林模型进行预测。
但是我得到了错误,因为某些因素在测试集中与训练集中具有不同的值。例如,一个因子在测试集中的Cat_2
值34, 68, 76
等不出现在训练集中。不幸的是,我无法控制测试集...我必须原样使用它。
我唯一的解决方法是使用将问题因子转换回数值as.numeric()
。它的工作原理,但我不是很满意,因为这些值是没有意义的数字代码...
您是否认为还有另一种解决方案,可以从测试集中删除新值?但是,不删除1, 2, 14, 32
训练和测试中所有其他因素值(比如说值等),并且包含可能对预测有用的信息。