3
应该仅对训练数据(或所有数据)执行特征选择吗?
应该仅对训练数据(或所有数据)执行特征选择吗?我经历了一些讨论和论文,例如Guyon(2003)以及Singhi and Liu(2006),但仍然不确定正确的答案。 我的实验设置如下: 数据集:50位健康对照者和50位疾病患者(cca 200功能可能与疾病预测相关)。 任务是根据可用功能诊断疾病。 我要做的是 取整个数据集并执行特征选择(FS)。我仅保留选定的功能以进行进一步处理 拆分以测试和训练,使用火车数据和所选功能进行火车分类。然后,将分类器应用于测试数据(再次仅使用所选功能)。使用留一法验证。 获得分类精度 平均:重复1)-3)N次。(100)。N=50N=50N=50 我同意在整个数据集上进行FS会带来一些偏差,但是我认为在平均过程中它被“平均”了(步骤4)。那是对的吗?(精度方差)<2%<2%<2\% 1 Guyon,I.(2003),“变量和特征选择简介”,《机器学习研究杂志》,第1卷。3,第1157-1182页 2 Singhi,SK和Liu,H.(2006)“用于分类学习的特征子集选择偏差”,进行ICML '06的第23届国际机器学习会议论文集,第849-856页