我的问题是三方面的
在“内核化”支持向量机的上下文中
- 是否需要进行可变/特征选择-特别是因为我们将参数C正则化以防止过度拟合,并且将内核引入SVM的主要动机是增加问题的维度,在这种情况下,通过参数缩减来减小维度似乎违反直觉
- 如果第一个问题的答案为“否”,那么在什么条件下应记住的答案会发生变化?
- 在python的scikit-learn库中是否尝试过一些好的方法来减少SVM的功能-我尝试了SelectFpr方法,正在寻找有不同方法经验的人。
1
除非您的初始功能刚开始具有超高品质,否则功能选择始终会有所帮助。Sklearn提供了许多不同的功能选择库(scikit-learn.org/stable/modules/feature_selection.html)我本人也喜欢RFE。
—
大卫
您没有提到您的上下文-请注意,如果是在业务上下文中,模型中保留的每个功能都需要进行一定程度的维护-如果您拥有更多变量,则涉及字面的金钱成本,例如,它需要更多的数据收集工作,DBA时间和编程时间。如果是针对Kaggle comp或类似软件,则此考虑显然不适用,并且如果在数据集中使用额外的200个可用功能,则您可以从中获得0.01%的性能提升。
—
罗伯特·德格拉夫