我没有看到讲座,所以无法评论所讲的内容。
我的0.02美元:如果您希望通过重采样获得良好的性能估算,则实际上应该在重采样期间执行所有操作,而不是之前的操作。功能选择[1]以及非平凡的操作(例如PCA)的情况确实如此。如果它给结果增加了不确定性,则将其包括在重新采样中。
考虑一下主成分回归:PCA,然后对某些成分进行线性回归。PCA估计参数(带有噪声),还必须选择组件数量(不同的值将导致不同的结果=>更多的噪声)。
假设我们在方案1中使用了10倍CV:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
或方案2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
应该清楚的是,第二种方法应该产生误差估计,以反映由PCA引起的不确定性,零件数量的选择和线性回归。实际上,第一个方案中的CV不知道它之前是什么。
我不总是在进行重采样时进行所有操作,而是在我不真正关心性能估计时才感到内((这很不寻常)。
两种方案有什么区别?这取决于数据和预处理。如果只是居中和缩放,可能就不会。如果您有大量数据,可能没有。随着训练集大小的减小,获得差的估计值的风险会增大,尤其是当n接近p时。
我可以肯定地说,在重采样中不包括监督功能选择是一个非常糟糕的主意(没有大量的训练集)。我不知道为什么预处理在一定程度上不会受到影响。
@mchangun:我认为组件的数量是一个调整参数,您可能希望使用可概括的性能估算来选择它。您可以自动选择K,以便至少可以解释X%的方差,并将该过程包括在重采样中,因此我们可以考虑该过程中的噪声。
最高
[1] Ambroise,C.和McLachlan,G.(2002)。基于微阵列基因表达数据的基因提取中的选择偏倚。美国国家科学院院刊,99(10),6562–6566。