能力是一个非正式术语。它与模型复杂度非常接近(如果不是同义词)。这是一种谈论模型可以表达的模式或关系有多复杂的方法。您可能期望容量较高的模型比容量较低的模型能够建模更多变量之间的更多关系。
从口语能力的定义中进行类比,您可以将其视为模型从越来越多的数据中学习的能力,直到它完全被信息“填充”为止。
有多种形式化容量并为其计算数值的方法,但重要的是,这些只是容量的一些可能“操作化”(与如果有人想出一个公式来计算美感的方式差不多,您将意识到该公式只是对美的一种错误解释)。
VC维度是容量的数学严格表示。但是,模型的VC维与模型拟合数据的实际能力之间可能会有很大的差距。即使知道VC dim会限制模型的泛化误差,但这通常过于宽松以至于无法用于神经网络。
此处看到的另一项研究是使用神经网络中权重矩阵的谱范数来衡量容量。理解这一点的一种方法是频谱范数限制了网络的Lipschitz常数。
估计模型容量的最常见方法是计算参数数量。参数越多,一般容量就越高。当然,通常较小的网络要比较大的网络更好地建模更复杂的数据,因此此方法也远非完美。
衡量容量的另一种方法可能是使用随机标签来训练模型(Neyshabur等人)-如果您的网络可以正确记住一堆输入以及随机标签,则本质上表明该模型可以记住所有这些数据点单独。可以“学习”的输入/输出对越多,容量就越高。
ϵ