我有可预测的稀疏特征,也有一些也可预测的密集特征。我需要将这些功能结合在一起,以提高分类器的整体性能。
现在,当我尝试将它们组合在一起时,稠密特征往往比稀疏特征更占主导地位,因此与仅具有稠密特征的模型相比,AUC仅改善了1%。
有人遇到过类似的问题吗?非常感谢您的投入,有点卡住。我已经尝试了许多不同的分类器,分类器的组合,特征转换以及使用不同算法的处理。
先谢谢您的帮助。
编辑:
我已经尝试了评论中给出的建议。我观察到的是,对于几乎45%的数据,稀疏特征的性能确实很好,只有稀疏特征的AUC约为0.9,而对于其余稠密特征,AUC约为0.75的性能很好。我尝试将这些数据集分离出来,但得到的AUC为0.6,因此,我不能简单地训练模型并确定要使用的功能。
关于代码段,我已经尝试了很多东西,以至于我不确定要分享什么:(