谁能解释scikit learning中RandomForestClassifier和ExtraTreesClassifier之间的区别。我花了很多时间阅读本文:
P. Geurts,D。Ernst。和L. Wehenkel,“极随机树”,Machine Learning,63(1),3-42,2006
看来这些是ET的区别:
1)在拆分时选择变量时,将从整个训练集中抽取样本,而不是从训练集中的引导样本中抽取样本。
2)每次从样本中的值范围中完全随机选择分割。
这两件事的结果是更多的“叶子”。
6
我对extratreeclassifier如此感兴趣的原因是,在特定问题上,使用ET可以获得更好的结果。我的特征向量大于200个大变量,并且这些变量非常嘈杂。标准RDF分类器的结果糟透了,但ET的F1分数> 90%。班级不平衡,有相对较少的阳性班级样本和许多阴性项目。
—
denson 2014年
另请参阅以下最新答案:stats.stackexchange.com/questions/175523/…–
—
Archie