在执行线性SVM分类时,通常可以对训练数据进行归一化,例如通过减去平均值并除以标准偏差,然后用训练数据的平均值和标准偏差对测试数据进行缩放通常会很有帮助。为什么此过程会大大改变分类性能?
1
这个问题已经得到回答stackoverflow.com/questions/15436367/svm-scaling-input-values
—
jpmuc
谢谢你,朱帕!但是,我仍然不太清楚,为什么需要使用训练集的均值和标准差而不是它自己的尺度来缩放测试集?在某些情况下,当两类样本在测试集中很好地平衡时,后者的表现似乎很好,甚至更好。
—
清华
因为那样你就不会保持一致。您正在测试不同的数据。想象一下,您是从高斯N(mu,sigma)中绘制样本的。您使用N(0,1)进行了训练(对中和缩放后),但是使用了N(mu,sigma)进行了测试
—
jpmuc