在执行重复的k倍交叉验证之前,对数据进行归一化处理(均值为零,统一标准差为零)是否会产生诸如过度拟合之类的负面后果?
注意:这是针对#cases> total #features的情况
我正在使用对数转换来转换部分数据,然后如上所述对所有数据进行规范化。然后执行功能选择。接下来,我将选定的特征和标准化数据应用于重复的10倍交叉验证,以尝试估计广义分类器的性能,并担心使用所有数据进行标准化可能不合适。我是否应该使用从该折叠训练数据中获得的归一化数据对每个折叠的测试数据进行归一化?
任何意见表示感谢!很抱歉,这个问题似乎很明显。
编辑: 在对此进行测试(符合以下建议)时,我发现CV之前的规范化与CV中的规范化相比在性能方面没有太大差异。