在统计学习理论中,是否存在过度拟合测试集的问题?


16

让我们考虑有关对MNIST数据集进行分类的问题。

根据Yann LeCun的MNIST网页,“ Ciresan等” 使用卷积神经网络在MNIST测试集上获得了0.23%的错误率。

让我们将MNIST训练集表示为,将MNIST测试集表示为,将他们使用获得的最终假设设为,并将它们在MNIST测试集上的错误率设为作为。DtrainDtestDtrainh1h1Etest(h1)=0.0023

在他们看来,由于是从输入空间中随机采样的测试集,而与无关,因此他们可以坚持认为,最终假设的样本外误差性能为由Hoeffding不等式界定 ,其中。Dtesth1Eout(h1)

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2NtesŤ

ñŤËsŤ=|dŤËsŤ|

换句话说,至少为, Ë Ö ù ħ 1Ë ë 小号ħ 1+ 1-δ

ËØüŤH1ËŤËsŤH1+12ñŤËsŤñ2δ

让我们考虑另一个观点。假设有人想很好地对MNIST测试集进行分类。因此,他首先查看了Yann LeCun的MNIST网页,发现了其他人使用8种不同模型获得的以下结果,

MNIST分类结果

并从8个模型中选择了在MNIST测试集上表现最好的模型。G

对他来说,学习过程是从假设集中选择一个在测试集上表现最佳的假设。d Ë 小号 ħ ř 一个Ñ Ê d = { ħ 1ħ 2h 8 }GdŤËsŤHŤ[R一种一世ñËd={H1H2H8}

因此,在此学习过程中,测试集的误差为“样本内”误差,因此他可以将VC边界应用于有限假设集,如以下不等式所示。 ËŤËsŤG

P[|ËØüŤG-Ë一世ñG|<ϵ]1-2|HŤ[R一种一世ñËd|Ë2ϵ2ñŤËsŤ

换句话说,至少是概率, 1-δ

ËØüŤGËŤËsŤG+12ñŤËsŤñ2|HŤ[R一种一世ñËd|δ

该结果表明,如果我们选择模型在多个模型中表现最佳,则可能对测试集过度拟合。

在这种情况下,该人可能选择,其错误率最低。由于是该特定测试集上8个模型中最好的假设,因此是在MNIST测试集上过度拟合的假设。H1ËŤËsŤH1=0.0023H1dŤËsŤH1

因此,这个人可以坚持以下不平等。

ËØüŤH1ËŤËsŤH1+12ñŤËsŤñ2|HŤ[R一种一世ñËd|δ

因此,我们得到两个不等式 和 。

P[ËØüŤH1ËŤËsŤH1+12ñŤËsŤñ2δ]1-δ
P[ËØüŤH1ËŤËsŤH1+12ñŤËsŤñ2|HŤ[R一种一世ñËd|δ]1-δ

但是,很明显这两个不等式是不相容的。

我在哪里做错了?哪个是对的,哪个是对的?

如果后者是错误的,在这种情况下,将VC限制应用于有限假设集的正确方法是什么?

Answers:


1

在这两个不平等中,我认为后者是错误的。简而言之,这是错误的,因为是测试数据的函数,而是独立于测试数据的模型,因此身份。G=H1GH1

实际上,是中最能预测测试集的8个模型之一。GHŤ[R一种一世ñËd={H1H2H8}dŤËsŤ

因此,是的函数。对于特定的测试集(就像您提到的那样),可能会发生,但是通常,取决于测试集可以采用任何值。另一方面,只是一个值。GdŤËsŤdŤËsŤGdŤËsŤ=H1GdŤËsŤHŤ[R一种一世ñËdH1HŤ[R一种一世ñËd

对于另一个问题:

如果后者是错误的,在这种情况下,将VC限制应用于有限假设集的正确方法是什么?

只是不要用替换,您将获得正确的界限(对于,当然),并且它将与另一个界限(对于)没有冲突。GH1GH1

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.