使用CART时如何衡量/排列“可变重要性”?(特别是使用R中的{rpart})
当使用rpart(在R中)构建CART模型(特别是分类树)时,通常很有趣的一点是,了解引入模型的各种变量的重要性。 因此,我的问题是: 对于CART模型中的参与变量的排名/衡量变量重要性,存在哪些常用措施?以及如何使用R来计算(例如,使用rpart包时) 例如,下面是一些伪代码,它们是创建的,以便您可以在上面显示解决方案。此示例经过结构设计,很明显变量x1和x2是“重要的”,而(在某种意义上)x1比x2更重要(因为x1应该适用于更多情况,因此对数据结构的影响更大,然后x2)。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …