我想训练一个分类器,例如SVM,随机森林或任何其他分类器。数据集中的特征之一是具有1000个级别的分类变量。减少此变量的级别数的最佳方法是什么。在R combine.levels()
中,Hmisc程序包中有一个函数,它结合了很少的级别,但是我在寻找其他建议。
分类变量是无序的吗?您大约有几例?类别变量的频率分布是多少?
—
Jeromy Anglim
级别不排序。我有大约10,000个观察结果。频率分布如下:A级出现在大约11%的观测值中。B级出现8%。c级出现在5%中。这些级别中约有15个覆盖了数据集中50%的观测值。
—
sabunime,2011年