非参数回归的最佳特征选择方法


10

这里有一个新手问题。我目前正在使用R中的np包执行非参数回归。我有7个功能,并使用蛮力方法确定了最好的3个。但是,很快我将拥有7个以上的功能!

我的问题是,当前用于非参数回归的特征选择的最佳方法是什么?以及哪些程序包实现了这些方法。谢谢。


1
您说“多得多”的100是什么意思?1000?10000?100000?
罗宾吉拉德2011年

大概我将拥有100个功能。但是我只有几分钟的时间来决定最佳功能子集。
jmmcnew 2011年

1
您是否尝试过套索或弹性网?软件包:套索,glmnet。这些方法可以在移动中“选择”某些变量。
deps_stats 2011年

Answers:


3

除非确定最相关的变量是分析的主要目标,否则通常最好不要完全进行任何特征选择并使用正则化来防止过度拟合。特征选择是一个棘手的过程,由于存在许多自由度,因此过于适合特征选择标准非常容易。LASSO和弹性网是一个很好的折衷方案,它通过正则化而不是通过直接特征选择来实现稀疏性,因此它们不太容易出现这种特定形式的过度拟合。


0

套索确实是一个好人。简单的事情,例如从零开始,然后按“ usefullness”(通过交叉验证)一一添加,在实践中也能很好地工作。有时将其称为阶段前馈选择。

注意,子集选择问题完全取决于分类/回归的类型。只是非参数方法可能很慢,因此需要更智能的选择方法。

T. Hastie撰写的“统计学习的要素”一书对此进行了很好的概述。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.