全向学习者是完全连接的(至少一层到两层以上的隐藏层)反向传播网络。不幸的是,他们通常学习缓慢,倾向于过度适应或笨拙的概括。
通过愚弄这些网络,我观察到修剪某些边缘(以使它们的权重为零且无法更改)趋向于使网络学习得更快并且泛化得更好。是否有一个原因?仅仅是因为权重搜索空间的维数减少,还是还有更细微的原因?
另外,更好的概括是否是我正在研究的“自然”问题的产物?
全向学习者是完全连接的(至少一层到两层以上的隐藏层)反向传播网络。不幸的是,他们通常学习缓慢,倾向于过度适应或笨拙的概括。
通过愚弄这些网络,我观察到修剪某些边缘(以使它们的权重为零且无法更改)趋向于使网络学习得更快并且泛化得更好。是否有一个原因?仅仅是因为权重搜索空间的维数减少,还是还有更细微的原因?
另外,更好的概括是否是我正在研究的“自然”问题的产物?
Answers:
通过修剪边缘,您减少了训练算法的搜索空间,这将在时间性能上带来立竿见影的收益。您还介绍了对网络可以建模的功能的限制。这些约束可能会迫使您的模型找到更通用的解决方案,因为更精确的解决方案是无法达到的。训练神经网络的常用技术是使用梯度下降技术。修剪的另一个结果可能是,您消除了参数格局中的一些局部最小值,从而再次允许训练算法找到更好的解决方案。
如果您更好的概括与您正在研究的问题有关,我不会感到惊讶。我在神经网络中获得了成功,该神经网络的基础模型具有连续的结构,而在存在不连续性的情况下,效果并不理想。还请记住,神经网络的性能通常与输入和输出的结构密切相关。