我可能正在处理一个可能已经解决了一百次的问题,但是我不确定在哪里可以找到答案。
当使用逻辑回归时,给定许多特征并尝试预测二进制分类值,我对选择可以很好地预测的特征子集感兴趣。 y y
是否可以使用类似于套索的程序?(我只看到套索用于线性回归。)
查看拟合模型的系数是否表明了不同特征的重要性?
编辑-看到一些答案后的澄清:
当我指的是拟合系数的大小时,我指的是那些拟合到归一化(均值0和方差1)特征的系数。否则,正如@probabilityislogic指出的那样,1000x的重要性似乎不如x。
我对仅寻找最佳k子集(如@Davide所提供的)不感兴趣,而是权衡不同功能之间的相对重要性。例如,一个特征可能是“年龄”,而另一个特征可能是“年龄> 30”。它们的增量重要性可能很小,但两者都可能很重要。