我建立了一个逻辑回归分类器,该分类器对我的数据非常准确。现在,我想更好地理解它为什么运行得如此出色。具体来说,我想对哪些功能做出最大的贡献(哪些功能最重要)进行排名,并且理想情况下,量化每个功能对整个模型的准确性有多大的贡献(或类似的东西)。我该怎么做呢?
我首先想到的是根据系数对它们进行排名,但是我怀疑这是不对的。如果我有两个同样有用的功能,但是第一个的散布是第二个的十倍,那么我希望第一个的系数要比第二个低。有没有更合理的方法来评估功能的重要性?
请注意,我不是要了解功能中的小变化会对结果的可能性产生多大的影响。相反,我试图了解每个功能在使分类器准确无误方面的价值。另外,我的目标不是执行特征选择或构建具有较少特征的模型,而是试图为学习的模型提供一些“可解释性”,因此分类器不仅仅是一个不透明的黑匣子。