当某些输入缺少值(NA)时使用randomForest(R)进行预测


9

我有一个很好的randomForest分类模型,可以在预测新案例类的应用程序中使用。新案例不可避免地缺少价值。预测不适用于NA。那我该怎么办呢?

data(iris)
# create first the new case with missing values
na.row<-45
na.col<-c(3,5)
case.na<-iris[na.row,]
case.na[,na.col]<-NA

iris.rf <- randomForest(Species ~ ., data=iris[-na.row,])
# print(iris.rf)

myrf.pred <- predict(iris.rf, case.na[-5], type="response")
myrf.pred
[1] <NA>

我试过了missForest。我将原始数据和新案例结合在一起missForest,与进行了比较,并在新案例中获得了NA的估算值。虽然计算量太大。

data.imp <- missForest(data.with.na)

但是必须有一种方法可以使用rf-model来预测缺少值的新情况,对吗?


4
决策树中有许多方法可以处理缺失值,但是randomForestR中的程序包仅具有您描述的插补方法。如果您希望留在类似的环境中,gbm则可以使用一种稍微更平滑的方法来处理新数据中的缺失值(虽然不完美,但很有用)。
Shea Parkes

我认为聚会套餐可以更好地解决价值观缺失的问题
Simone 2013年

亲爱的@Simone,party程序包如何与测试集中的NA一起使用?我在party手册或示例中找不到归类的痕迹。
hermo 2013年

@hermo尝试查看聚会的论文citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.92.9930看来该算法像CART一样工作-它寻找代理拆分。
西蒙妮

尝试使用“ na.action = na.roughfix”。

Answers:


1

您别无选择,只能估算值或更改模型。Hmisc软件包中的aregimpute是一个不错的选择。我认为它比rfimpute轻,这是让您受阻的第一包示例(还有其他示例):

# Check that aregImpute can almost exactly estimate missing values when
# there is a perfect nonlinear relationship between two variables
# Fit restricted cubic splines with 4 knots for x1 and x2, linear for x3
set.seed(3)
x1 <- rnorm(200)
x2 <- x1^2
x3 <- runif(200)
m <- 30
x2[1:m] <- NA
a <- aregImpute(~x1+x2+I(x3), n.impute=5, nk=4, match='closest')
a
matplot(x1[1:m]^2, a$imputed$x2)
abline(a=0, b=1, lty=2)

x1[1:m]^2
a$imputed$x2

# Multiple imputation and estimation of variances and covariances of
# regression coefficient estimates accounting for imputation
# Example 1: large sample size, much missing data, no overlap in
# NAs across variables
x1 <- factor(sample(c('a','b','c'),1000,TRUE))
x2 <- (x1=='b') + 3*(x1=='c') + rnorm(1000,0,2)
x3 <- rnorm(1000)
y  <- x2 + 1*(x1=='c') + .2*x3 + rnorm(1000,0,2)
orig.x1 <- x1[1:250]
orig.x2 <- x2[251:350]
x1[1:250] <- NA
x2[251:350] <- NA
d <- data.frame(x1,x2,x3,y)
# Find value of nk that yields best validating imputation models
# tlinear=FALSE means to not force the target variable to be linear
f <- aregImpute(~y + x1 + x2 + x3, nk=c(0,3:5), tlinear=FALSE,
                data=d, B=10) # normally B=75
f
# Try forcing target variable (x1, then x2) to be linear while allowing
# predictors to be nonlinear (could also say tlinear=TRUE)
f <- aregImpute(~y + x1 + x2 + x3, nk=c(0,3:5), data=d, B=10)
f

# Use 100 imputations to better check against individual true values
f <- aregImpute(~y + x1 + x2 + x3, n.impute=100, data=d)
f
par(mfrow=c(2,1))
plot(f)
modecat <- function(u) {
 tab <- table(u)
 as.numeric(names(tab)[tab==max(tab)][1])
}
table(orig.x1,apply(f$imputed$x1, 1, modecat))
par(mfrow=c(1,1))
plot(orig.x2, apply(f$imputed$x2, 1, mean))
fmi <- fit.mult.impute(y ~ x1 + x2 + x3, lm, f, 
                       data=d)
sqrt(diag(vcov(fmi)))
fcc <- lm(y ~ x1 + x2 + x3)
summary(fcc)   # SEs are larger than from mult. imputation

您提到您有许多新观察值,这些观察值缺少独立变量的值。即使您有许多这样的情况,如果对于每个新观察,仅在其一个或两个变量中缺失,并且您的变量数量也不小,也许只是用中位数或平均值填补了漏洞(它们是连续的吗?)可以工作。

可能有趣的另一件事是进行次要变量重要性分析。随机森林R的实现可计算两个重要指标和相应的图:

varImpPlot(yourRandomForestModel) # yourRandomForestModel must have the argument importance=TRUE 

而且,您可以尝试在模型训练中仅包含“重要”变量,直到与“完整模型”相比,预测准确性不会受到所有影响。也许您保留的变量缺失少。它可以帮助您减少问题的大小。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.