让我们考虑有关对MNIST数据集进行分类的问题。
根据Yann LeCun的MNIST网页,“ Ciresan等” 使用卷积神经网络在MNIST测试集上获得了0.23%的错误率。
让我们将MNIST训练集表示为,将MNIST测试集表示为,将他们使用获得的最终假设设为,并将它们在MNIST测试集上的错误率设为作为。DtrainDtestDtrainh1h1Etest(h1)=0.0023
在他们看来,由于是从输入空间中随机采样的测试集,而与无关,因此他们可以坚持认为,最终假设的样本外误差性能为由Hoeffding不等式界定
,其中。Dtesth1Eout(h1)
P[|Eout(h1)−Etest(h1)|<ϵ|]≥1−2e2ϵ2Ntest
ñ牛逼Ë 小号ŧ= | d牛逼Ë 小号ŧ|
换句话说,至少为,
Ë Ö ù 吨(ħ 1)≤ Ë 吨ë 小号吨(ħ 1)+ √1 - δ
ËØ ü Ť(小时1)≤ Ë牛逼Ë 小号ŧ(小时1)+ 12 N牛逼Ë 小号ŧ升Ñ 2δ---------√
让我们考虑另一个观点。假设有人想很好地对MNIST测试集进行分类。因此,他首先查看了Yann LeCun的MNIST网页,发现了其他人使用8种不同模型获得的以下结果,
并从8个模型中选择了在MNIST测试集上表现最好的模型。G
对他来说,学习过程是从假设集中选择一个在测试集上表现最佳的假设。d 吨Ë 小号吨 ħ 吨ř 一个我Ñ Ê d = { ħ 1,ħ 2,。。,h 8 }Gd牛逼Ë 小号ŧH吨ř 一个我Ñ ë d= { h1,小时2,。。,小时8}
因此,在此学习过程中,测试集的误差为“样本内”误差,因此他可以将VC边界应用于有限假设集,如以下不等式所示。
Ë牛逼Ë 小号ŧ(克)
P[ | ËØ ü Ť(克)- Ë我ñ(克)| < ε ] ≥ 1 - 2 | H吨ř 一个我Ñ ë d| Ë2 ϵ2ñ牛逼Ë 小号ŧ
换句话说,至少是概率,
1 - δ
ËØ ü Ť(克)≤ Ë牛逼Ë 小号ŧ(克)+ 12 N牛逼Ë 小号ŧl n 2 | H吨ř 一个我Ñ ë d|δ---------------√
该结果表明,如果我们选择模型在多个模型中表现最佳,则可能对测试集过度拟合。
在这种情况下,该人可能选择,其错误率最低。由于是该特定测试集上8个模型中最好的假设,因此是在MNIST测试集上过度拟合的假设。H1Ë牛逼Ë 小号ŧ(小时1)= 0.0023H1d牛逼Ë 小号ŧH1
因此,这个人可以坚持以下不平等。
ËØ ü Ť(小时1)≤ Ë牛逼Ë 小号ŧ(小时1)+ 12 N牛逼Ë 小号ŧl n 2 | H吨ř 一个我Ñ ë d|δ---------------√
因此,我们得到两个不等式
和
。
P[ËØ ü Ť(小时1)≤ Ë牛逼Ë 小号ŧ(小时1)+ 12 N牛逼Ë 小号ŧ升Ñ 2δ---------√] ≥ 1 - δ
P[ËØ ü Ť(小时1)≤ Ë牛逼Ë 小号ŧ(小时1)+ 12 N牛逼Ë 小号ŧl n 2 | H吨ř 一个我Ñ ë d|δ---------------√] ≥ 1 - δ
但是,很明显这两个不等式是不相容的。
我在哪里做错了?哪个是对的,哪个是对的?
如果后者是错误的,在这种情况下,将VC限制应用于有限假设集的正确方法是什么?