他说“网络的有效复杂性”。他实际上是指网络权重的大小。这可以根据最小描述长度原理来理解。但是在我开始讨论之前,直觉是权重越大,您的网络可以适应的功能就越不同,因此自由度(和有效复杂性)也就越高。
在该章中,他讨论正则化,这是一种通过要求权重尽可能小来有效降低过拟合风险的技术。一般来说,
p(D|w)=∏np(tn|xn,w)=∏nexp(β2[tn−y(xn,w)]2)/ZD(β)
wZD(β)
p(w)=exp(−α||w||22)/ZW(α)
argmaxwp(w|D)
p(w|D)=p(D|w)p(w)
Zw
argminw∑nβ2[tn−y(xn,w)]2+α2∑iw2i
一般而言,您有MAP估算值等于以下估算值,
wMAP=argminw−log2P(D|w)−log2(w)
表达式的右侧可以解释为描述分类器所需的位数。第一项表示对网络对训练数据进行的错误进行编码所需的位数。第二个代表编码权重所需的位数。
因此,MAP估计等效于选择尽可能紧凑的表示形式。换句话说,您要寻找一组权重,这些权重应尽可能忠实地说明训练数据,并且可以用最少的位数来表示。
请注意,这是偏差/方差问题的另一种形式:权重越大,第一项越低,因为网络可以更好地拟合训练数据(过度拟合)。但是同时权重的复杂性也更高。权重越小,网络的复杂度越小,但是误差项(bias)越高。编码网络错误所需的位数越多。
希望这能使您对他所指的内容有足够的了解。
PS在进行中的讨论中添加了更长的论点,也许我误会了您。请允许我最后一次解释自己。
权重的先验表示我们对您要拟合的函数所做的假设。先验值(即权重)越大,高斯范围就越宽,即人们认为适合网络的可能配置越多。
让我们考虑回归的情况(就像我提到的论文)。低泛化误差意味着网络能够映射非常接近实际值的看不见的样本。如果拟合直线,则一阶多项式就足够了(低复杂度)。现在,您还可以使用更高阶的多项式拟合数据(让更高阶的系数不同于零)。网络的复杂度更高,因为您可以考虑振荡,从而获得更复杂的曲线。但是,如果与高阶项相对应的系数足够低,则网络可以很好地近似直线,从而获得良好的通用性。
因此,只要可以使泛化误差最小化,MDL的全部目的就是使权重尽可能小。
最后,引用您的话:“随着模型开始过拟合,其对其他函数建模的能力将会增强。我认为这令人感到困惑。我认为这是相反的,因为过拟合的模型无法推广到新模型。信息。”。是的,它可以为其他更复杂的功能建模,但是将无法正确建模现有功能。在书中的图5.12中,随着重量的增加(误差的减少),误差首先下降。直到给定点它再次开始增加(泛化减少,过度拟合)。