一个人（理论上）可以用比权重更少的训练样本来训练神经网络吗？

12

首先：我知道，训练神经网络不需要一般数量的样本。它取决于太多的因素，例如任务的复杂性，数据中的噪音等。而且我拥有的培训样本越多，我的人际网络就会越好。

但是我想知道：如果我假设我的任务足够“简单”，那么在理论上可以用比权重更少的训练样本来训练神经网络吗？有人知道这样做的例子吗？还是该网络几乎肯定会表现不佳？

例如，如果我考虑多项式回归，则无法仅在4个数据点上拟合4级多项式（即具有5个自由参数）。考虑我的权重数量作为自由参数的数量，神经网络是否有类似的规则？

neural-networks overfitting underdetermined

— 霍比特人
source

是的：如果权重是随机初始化的，那么即使训练样本为零，理论上也可以得到训练有素的神经网络。（发布评论，而不是回答，因为我知道这并不是您真正要的。）

— Darren Cook

17

人们一直通过大型网络来做到这一点。例如，著名的AlexNet网络大约有6000万个参数，而最初受过训练的ImageNet ILSVRC只有120万个图像。

您不能将5参数多项式拟合到4个数据点的原因是，它总是可以找到一个完全适合您的数据点的函数，但在其他地方却没有意义。好吧，正如最近指出的那样，AlexNet和类似的网络可以适合应用于ImageNet的任意随机标签，并简单地将它们全部记住，大概是因为它们比训练点拥有更多的参数。但是，关于网络先验性和随机梯度下降优化过程的一些信息意味着，实际上，当您给它们提供真实标签时，这些模型仍然可以很好地推广到新的数据点。我们仍然不太明白为什么会这样。

— 杜加尔
source

2

+1。我可以补充一点，以便与多项式回归进行比较，我还认为样本是高维的。ImageNet上的平均图像分辨率约为469x387像素，如果裁剪为256x256，我们将有120万个65k输入参数，这些参数在每个样本中都高度相关，从而为神经网络（尤其是卷积NN）提供了更多信息比在多项式回归的情况下。

— jjmontes

3

@jjmontes是正确的，但主要的奥秘在于这些网络具有记忆和概括的能力。换句话说，他们可以使用随机标签粉碎训练数据，并且仍然可以很好地泛化。这不是传统ML方法中看到的东西。

— 阿梅里奥·瓦兹克斯·雷纳

6

只有在您没有施加数据以外的其他约束的情况下，才可确定系统。以您的示例为例，将4度多项式拟合到4个数据点意味着您拥有一个不受数据约束的自由度，这给您留下了一条同样好解的线（在系数空间中）。但是，您可以使用各种正则化技术来解决问题。例如，通过对系数的L2范数（即平方和）施加惩罚，可以确保始终存在一个适用性最高的唯一解决方案。

神经网络也存在正则化技术，因此，对您的问题的简短回答是“是的，您可以”。特别令人感兴趣的是一种称为“丢弃”的技术，其中，对于权重的每次更新，您从网络中随机“丢弃”节点的特定子集。也就是说，对于学习算法的特定迭代，您假设这些节点不存在。在没有辍学的情况下，网络可以学习非常复杂的输入表示形式，该表示形式取决于正确协作的所有节点。这样的表示很可能会“记住”训练数据，而不是找到可以概括的模式。丢包可确保网络无法一次使用所有节点来容纳训练数据；即使缺少某些节点，它也必须能够很好地表示数据，

还要注意，当使用辍学时，尽管总的来说学习的权重要比训练样本多，但是在训练过程中任意给定点的自由度实际上可能小于训练样本的数量。

— 鲁宾·范·贝根（Ruben van Bergen）
source

2

这可能夸大了显式正则化在深层网络中所扮演的角色：我在我的答案中提到的这篇论文显示了辍学和其他形式的正则化对网络可存储的数量影响很小。尽管您的基本故事可能是对的，但主要的正则化是SGD中的隐式故事。这一切仍然有些模糊。

— Dougal'7