当使用rpart(在R中)构建CART模型(特别是分类树)时,通常很有趣的一点是,了解引入模型的各种变量的重要性。
因此,我的问题是: 对于CART模型中的参与变量的排名/衡量变量重要性,存在哪些常用措施?以及如何使用R来计算(例如,使用rpart包时)
例如,下面是一些伪代码,它们是创建的,以便您可以在上面显示解决方案。此示例经过结构设计,很明显变量x1和x2是“重要的”,而(在某种意义上)x1比x2更重要(因为x1应该适用于更多情况,因此对数据结构的影响更大,然后x2)。
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(总是欢迎引用)