我使用了Logistic回归。我有六个功能,我想知道此分类器中比其他功能更能影响结果的重要功能。我使用了Information Gain,但似乎并不依赖于所使用的分类器。是否有任何方法可以根据特定的分类器(例如Logistic回归)根据其重要性对特征进行排名?任何帮助将不胜感激。
我使用了Logistic回归。我有六个功能,我想知道此分类器中比其他功能更能影响结果的重要功能。我使用了Information Gain,但似乎并不依赖于所使用的分类器。是否有任何方法可以根据特定的分类器(例如Logistic回归)根据其重要性对特征进行排名?任何帮助将不胜感激。
Answers:
我认为您正在寻找的答案可能是Boruta算法。这是一种包装方法,可以直接在“所有相关性”的意义上衡量要素的重要性,并在R包中实施,它可以绘制出精美的图,例如 在y轴上将任何要素的重要性都与y轴进行比较的情况下null在这里以蓝色绘制。这篇博客文章介绍了这种方法,我建议您阅读它作为一个非常清晰的介绍。
要开始了解如何通过重要性对回归模型进行排名,您可以从线性回归开始。在线性回归模型中对变量的重要性进行排名的一种流行方法是将分解为每个变量的贡献。但是由于变量之间的相关性,变量重要性在线性回归中并不简单。请参阅描述PMD方法的文档(Feldman,2005年)[ 3 ]。另一种流行的方法是对顺序求平均(LMG,1980)[ 2 ]。
关于如何对变量进行逻辑回归排序没有太多共识。在[ 1 ] 中对该主题进行了很好的概述,它描述了使用Pseudo- 进行逻辑回归的线性回归相对重要性技术的改编。
在Logistic回归模型中对特征重要性进行排名的常用方法列表如下:
参考文献:
X我ÿ我我瓦特b ˚F 瓦特,b( X 我)
假设您所有的都已归一化,例如通过指定,就很容易看出哪些变量更为重要:那些变量相对于其他变量较大,或者(在负数方面) )小于其他。它们对损失的影响最大。X
如果您热衷于寻找真正重要的变量并且在此过程中不介意淘汰一些变量,则可以正则化损失函数: min w,b n ∑ i = 1 log (1 + exp (− y i f w,b(x i))) + λ | w |
导数或正则化器非常简单,因此在此不再赘述。使用这种形式的正则化和适当的会将次要的元素强制为零,而其他元素则不为零。w ^
我希望这有帮助。询问您是否还有其他问题。