为什么神经网络似乎在拓扑受到限制的情况下表现更好?


29

全向学习者是完全连接的(至少一层到两层以上的隐藏层)反向传播网络。不幸的是,他们通常学习缓慢,倾向于过度适应或笨拙的概括。

通过愚弄这些网络,我观察到修剪某些边缘(以使它们的权重为零且无法更改)趋向于使网络学习得更快并且泛化得更好。是否有一个原因?仅仅是因为权重搜索空间的维数减少,还是还有更细微的原因?

另外,更好的概括是否是我正在研究的“自然”问题的产物?

Answers:


9

更少的节点/边缘(或具有固定权重的边缘)意味着需要找到其值的参数较少,这通常会减少学习时间。同样,当参数较少时,神经网络可以表达的空间具有较少的维数,因此神经网络只能表达更通用的模型。因此,它不太适合数据拟合,因此模型看起来更通用。


5

通过修剪边缘,您减少了训练算法的搜索空间,这将在时间性能上带来立竿见影的收益。您还介绍了对网络可以建模的功能的限制。这些约束可能会迫使您的模型找到更通用的解决方案,因为更精确的解决方案是无法达到的。训练神经网络的常用技术是使用梯度下降技术。修剪的另一个结果可能是,您消除了参数格局中的一些局部最小值,从而再次允许训练算法找到更好的解决方案。

如果您更好的概括与您正在研究的问题有关,我不会感到惊讶。我在神经网络中获得了成功,该神经网络的基础模型具有连续的结构,而在存在不连续性的情况下,效果并不理想。还请记住,神经网络的性能通常与输入和输出的结构密切相关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.