让我们从直觉开始。
使用预测并没有错。实际上,不使用它意味着我们将丢弃有价值的信息。但是,我们越依赖于包含的信息来得出我们的预测,我们的估算器将越过乐观。yiy^iyi
在一个极端情况下,如果仅为,则您将具有完美的样本预测(),但我们可以肯定的是,样本外预测会很糟糕。在这种情况下(您很容易自己检查),自由度将为。y^iyiR2=1df(y^)=n
另一方面,如果对所有使用的样本均值:,则您的自由度将仅为1。yyi=yi^=y¯i
查看Ryan Tibshirani的这份精美讲义,了解有关此直觉的更多详细信息
现在与其他答案类似,但有更多解释
请记住,根据定义,平均乐观度是:
ω=Ey(Errin−err¯¯¯¯¯¯¯)
=Ey(1N∑i=1NEY0[L(Y0i,f^(xi)|T)]−1N∑i=1NL(yi,f^(xi)))
现在使用二次损失函数并展开平方项:
=Ey(1N∑i=1NEY0[(Y0i−y^i)2]−1N∑i=1N(yi−y^i)2))
=1N∑i=1N(EyEY0[(Y0i)2]+EyEY0[y^2i]−2EyEY0[Y0iy^i]−Ey[y2i]−Ey[y^2i]+2E[yiy^i])
使用来替换:EyEY0[(Y0i)2]=Ey[y2i]
=1N∑i=1N(Ey[y2i]+Ey[yi^2]−2Ey[yi]Ey[y^i]−Ey[y2i]−Ey[y^2i]+2E[yiy^i])
=2N∑i=1N(E[yiy^i]−Ey[yi]Ey[y^i])
最后,请注意,得出:Cov(x,w)=E[xw]−E[x]E[w]
=2N∑i=1NCov(yi,y^i)