在“统计学习的要素”中,我发现以下语句:
有一项条件:可以在不进行样品检测之前进行初始的无监督筛选步骤。例如,在开始交叉验证之前,我们可以在所有50个样本中选择具有最高方差的1000个预测变量。由于此过滤不涉及类标签,因此不会给预测变量带来不公平的优势。
这真的有效吗?我的意思是,通过预先过滤属性,我们不会模仿训练数据/新数据环境-那么,是否对正在执行的过滤没有监督是很重要的吗?在交叉验证过程中实际执行所有预处理步骤是否更好?如果不是这种情况,则意味着可以预先执行所有无监督的预处理,包括功能归一化/ PCA等。但是,通过对整个训练集进行这些操作,实际上是在向训练集泄漏一些数据。我可以同意,相对稳定的数据集,这些差异很可能应该很小-但这并不意味着它们不存在,对吧?思考这个问题的正确方法是什么?