首先:我知道,训练神经网络不需要一般数量的样本。它取决于太多的因素,例如任务的复杂性,数据中的噪音等。而且我拥有的培训样本越多,我的人际网络就会越好。
但是我想知道:如果我假设我的任务足够“简单”,那么在理论上可以用比权重更少的训练样本来训练神经网络吗?有人知道这样做的例子吗?还是该网络几乎肯定会表现不佳?
例如,如果我考虑多项式回归,则无法仅在4个数据点上拟合4级多项式(即具有5个自由参数)。考虑我的权重数量作为自由参数的数量,神经网络是否有类似的规则?
首先:我知道,训练神经网络不需要一般数量的样本。它取决于太多的因素,例如任务的复杂性,数据中的噪音等。而且我拥有的培训样本越多,我的人际网络就会越好。
但是我想知道:如果我假设我的任务足够“简单”,那么在理论上可以用比权重更少的训练样本来训练神经网络吗?有人知道这样做的例子吗?还是该网络几乎肯定会表现不佳?
例如,如果我考虑多项式回归,则无法仅在4个数据点上拟合4级多项式(即具有5个自由参数)。考虑我的权重数量作为自由参数的数量,神经网络是否有类似的规则?
Answers:
人们一直通过大型网络来做到这一点。例如,著名的AlexNet网络大约有6000万个参数,而最初受过训练的ImageNet ILSVRC只有120万个图像。
您不能将5参数多项式拟合到4个数据点的原因是,它总是可以找到一个完全适合您的数据点的函数,但在其他地方却没有意义。好吧,正如最近指出的那样,AlexNet和类似的网络可以适合应用于ImageNet的任意随机标签,并简单地将它们全部记住,大概是因为它们比训练点拥有更多的参数。但是,关于网络先验性和随机梯度下降优化过程的一些信息意味着,实际上,当您给它们提供真实标签时,这些模型仍然可以很好地推广到新的数据点。我们仍然不太明白为什么会这样。
只有在您没有施加数据以外的其他约束的情况下,才可确定系统。以您的示例为例,将4度多项式拟合到4个数据点意味着您拥有一个不受数据约束的自由度,这给您留下了一条同样好解的线(在系数空间中)。但是,您可以使用各种正则化技术来解决问题。例如,通过对系数的L2范数(即平方和)施加惩罚,可以确保始终存在一个适用性最高的唯一解决方案。
神经网络也存在正则化技术,因此,对您的问题的简短回答是“是的,您可以”。特别令人感兴趣的是一种称为“丢弃”的技术,其中,对于权重的每次更新,您从网络中随机“丢弃”节点的特定子集。也就是说,对于学习算法的特定迭代,您假设这些节点不存在。在没有辍学的情况下,网络可以学习非常复杂的输入表示形式,该表示形式取决于正确协作的所有节点。这样的表示很可能会“记住”训练数据,而不是找到可以概括的模式。丢包可确保网络无法一次使用所有节点来容纳训练数据;即使缺少某些节点,它也必须能够很好地表示数据,
还要注意,当使用辍学时,尽管总的来说学习的权重要比训练样本多,但是在训练过程中任意给定点的自由度实际上可能小于训练样本的数量。