我试图使用随机森林中的特征重要性来对回归问题执行一些经验性特征选择,该回归问题中所有特征都是分类的,并且其中许多特征具有许多级别(大约100-1000)。假设一键编码会为每个级别创建一个虚拟变量,那么功能的重要性是针对每个级别的,而不是针对每个功能(列)。汇总这些功能重要性的好方法是什么?
我考虑过对某个功能的所有级别进行求和或得出平均重要性(可能前者会偏向具有更高级别的那些功能)。关于这个问题有参考吗?
还有什么可以减少功能数量的呢?我知道套索组,找不到任何易于使用的scikit-learn。
谁能回答这样一个问题:对分类变量的每个级别的变量重要性求和是否有意义?
—
参阅