我在微阵列数据集上应用随机森林算法作为分类器,将其分为两个已知的具有1000多个特征的组。初次运行后,我查看了这些功能的重要性,并使用5个,10个和20个最重要的功能再次运行树算法。 我发现,对于所有功能,前10位和前20位的OOB错误率估计为1.19%,而前5位功能的错误率为0%。 这对我来说似乎是违反直觉的,因此我想知道您是否可以解释我是否缺少某些内容或使用了错误的指标。
我在ntree = 1000,nodesize = 1和mtry = sqrt(n)中使用R中的randomForest包