我有一个很好的randomForest
分类模型,可以在预测新案例类的应用程序中使用。新案例不可避免地缺少价值。预测不适用于NA。那我该怎么办呢?
data(iris)
# create first the new case with missing values
na.row<-45
na.col<-c(3,5)
case.na<-iris[na.row,]
case.na[,na.col]<-NA
iris.rf <- randomForest(Species ~ ., data=iris[-na.row,])
# print(iris.rf)
myrf.pred <- predict(iris.rf, case.na[-5], type="response")
myrf.pred
[1] <NA>
我试过了missForest
。我将原始数据和新案例结合在一起missForest
,与进行了比较,并在新案例中获得了NA的估算值。虽然计算量太大。
data.imp <- missForest(data.with.na)
但是必须有一种方法可以使用rf-model来预测缺少值的新情况,对吗?
我认为聚会套餐可以更好地解决价值观缺失的问题
—
Simone 2013年
亲爱的@Simone,
—
hermo 2013年
party
程序包如何与测试集中的NA一起使用?我在party
手册或示例中找不到归类的痕迹。
@hermo尝试查看聚会的论文citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.92.9930看来该算法像CART一样工作-它寻找代理拆分。
—
西蒙妮
randomForest
R中的程序包仅具有您描述的插补方法。如果您希望留在类似的环境中,gbm
则可以使用一种稍微更平滑的方法来处理新数据中的缺失值(虽然不完美,但很有用)。