我有一个主要包含财务变量(120个特征,4k个示例)的数据集,这些变量大多具有高度相关性且非常嘈杂(例如技术指标),因此我想选择最多约20-30个模型,供以后用于模型训练(二进制分类) - 增加减少)。
我当时正在考虑使用随机森林进行特征排名。递归使用它们是一个好主意吗?例如,假设在第一轮中,我丢掉最差的20%,第二次也丢掉,依此类推,直到获得所需数量的功能。我应该对RF使用交叉验证吗?(对我来说,不使用CV是很直观的,因为那已经是RF所做的事情了。)
另外,如果我使用随机森林,是否应该将它们用作二进制的分类器或实际增加/减少的回归变量,以获得功能的重要性?
顺便说一下,在特征选择之后,我想尝试的模型是:SVM,神经网络,局部加权回归和随机森林。我主要在Python中工作。