我试图了解如何完全理解使用sklearn构建的决策树分类模型的决策过程。我要看的2个主要方面是树的graphviz表示形式和功能重要性列表。我不了解的是如何在树的上下文中确定功能的重要性。例如,这是我的功能重要性列表:
功能排名:1. FeatureA(0.300237)
FeatureB(0.166800)
FeatureC(0.092472)
精选(0.075009)
FeatureE(0.068310)
FeatureF(0.067118)
FeatureG(0.066510)
FeatureH(0.043502)
FeatureI(0.040281)
FeatureJ(0.039006)
FeatureK(0.032618)
FeatureL(0.008136)
FeatureM(0.000000)
实际上,某些排名为“最重要”的要素要到树下很远时才会出现,而树的顶部是FeatureJ,这是排名最低的要素之一。我天真的假设是,最重要的功能将排在树的顶部附近,以产生最大的影响。如果那是不正确的,那么什么使功能“重要”?