我认为您的问题没有确定的答案。但是我认为传统的看法如下:
基本上,随着学习算法的假设空间的增长,该算法可以学习越来越丰富的结构。但是同时,该算法变得更容易过度拟合,并且泛化误差可能会增加。
因此,最终,对于任何给定的数据集,建议使用具有足够能力来学习数据的真实结构的最小模型。但这是一个非常费力的建议,因为通常“数据的真实结构”是未知的,而且通常甚至对候选模型的能力也只有模糊的理解。
对于神经网络,假设空间的大小由参数数量控制。似乎对于固定数量的参数(或固定的数量级),更深的深度允许模型捕获更丰富的结构(例如,本文)。
这可能部分解释了参数较少的更深层次模型的成功:VGGNet(2014年以来)具有16层,具有约1.4亿个参数,而ResNet(2015年以来)具有152层,但仅有约200万个参数击败了它
(另一方面,较小的模型在计算上可能更容易训练-但我认为它本身并不是主要因素-因为深度实际上会使训练变得复杂)
请注意,这种趋势(深度更大,参数更少)主要出现在与视觉有关的任务和卷积网络中,这需要针对特定领域的解释。所以这是另一种观点:
卷积层中的每个“神经元”都有一个“接收场”,它是影响每个输出的输入的大小和形状。直观地,每个内核都捕获附近输入之间的某种关系。而且,小内核(常见且较为可取)的接收域较小,因此它们只能提供有关本地关系的信息。
但是随着深入,每个神经元相对于较早层的感受野会变大。因此,深层可以提供具有全局语义含义和抽象细节(关系的关系……对象关系的关系)的特征,同时仅使用小内核(对网络学习的关系进行正则化,并有助于其收敛和泛化)。
因此,深度卷积网络在计算机视觉中的有用性可能由图像和视频的空间结构部分解释。时间可能表明,对于不同类型的问题,或者对于非卷积架构,深度实际上并不能很好地发挥作用。