如何解释随机森林模型中准确度的均值下降和GINI的均值下降
我在理解如何解释“随机森林”软件包的可变重要性输出时遇到了一些困难。准确度的平均下降通常被描述为“由于置换每个特征中的值而导致的模型准确度的下降”。 这是关于整个功能还是关于功能中的特定值的声明?在这两种情况下,通过从模型中删除有问题的特征(或特征中的值)而将未正确分类的观测值的数量或比例平均准确率降低了吗? 假设我们有以下模型: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …