关于运行统计学习算法之前是否需要使用特征选择方法(随机森林特征重要性值或单变量特征选择方法等),我有一个问题。
我们知道,为避免过度拟合,我们可以对权重向量引入正则化惩罚。
因此,如果要进行线性回归,则可以引入L2或L1甚至弹性网正则化参数。为了获得稀疏解,L1惩罚有助于特征选择。
然后,是否仍需要在运行L1正则化或回归(例如Lasso)之前进行特征选择?从技术上讲,套索正在帮助我减少L1损失,那么为什么在运行算法之前需要选择特征?
我读了一篇研究文章,说先做Anova再做SVM比单独使用SVM可以提供更好的性能。现在的问题是:SVM本质上使用L2规范进行正则化。为了最大化裕量,它正在最小化权重向量范数。因此,它正在对其目标函数进行正则化。那么从技术上讲,诸如SVM之类的算法就不应该困扰于特征选择方法吗?但是该报告仍然说,在普通SVM功能更强大之前进行Univariate Feature选择。
有想法的人吗?