应该仅对训练数据(或所有数据)执行特征选择吗?我经历了一些讨论和论文,例如Guyon(2003)以及Singhi and Liu(2006),但仍然不确定正确的答案。
我的实验设置如下:
- 数据集:50位健康对照者和50位疾病患者(cca 200功能可能与疾病预测相关)。
- 任务是根据可用功能诊断疾病。
我要做的是
- 取整个数据集并执行特征选择(FS)。我仅保留选定的功能以进行进一步处理
- 拆分以测试和训练,使用火车数据和所选功能进行火车分类。然后,将分类器应用于测试数据(再次仅使用所选功能)。使用留一法验证。
- 获得分类精度
- 平均:重复1)-3)N次。(100)。
我同意在整个数据集上进行FS会带来一些偏差,但是我认为在平均过程中它被“平均”了(步骤4)。那是对的吗?(精度方差)
1 Guyon,I.(2003),“变量和特征选择简介”,《机器学习研究杂志》,第1卷。3,第1157-1182页
2 Singhi,SK和Liu,H.(2006)“用于分类学习的特征子集选择偏差”,进行ICML '06的第23届国际机器学习会议论文集,第849-856页