Answers:
扩展@Dikran Marsupial的答案...
安娜·乔罗曼斯卡(Anna Choromanska)和她在纽约大学Yan LeCunn研究小组的同事在其2014年AISTATS论文“多层网的损耗表面”中对此进行了阐述。他们使用随机矩阵理论以及一些实验得出以下结论:
对于大型网络,大多数局部最小值是等效的,并在测试集上产生相似的性能。
对于小型网络,找到“不良”(高值)局部最小值的可能性非零,并且随着网络规模的增加而迅速降低。
努力寻找训练集上的全局最小值(而不是许多本地最佳集之一)在实践中没有用,并且可能导致过度拟合。
[摘自论文第二页]
在这种观点下,没有足够的理由采用权重较大的方法来找到全局最小值。最好将这段时间花在尝试新的网络拓扑,功能,数据集等上。
也就是说,许多人已经考虑过增加或替换SGD。对于相对较小的网络(按当代标准),这些改进的变元方法似乎确实做了某些事情,Mavrovouniotis和Yang(2016)表明,在几个基准数据集上,蚁群优化+反向支持优于未修改的反向支持(尽管不是很多)。里尔 (2015年)使用模拟退火来训练CNN,并发现其最初在验证集上的表现更好。但是,经过10个时间段后,性能仅会出现很小的差异(并且未经测试)。更快的每时间收敛优势也被每时间显着更大的计算时间所抵消,因此对于模拟退火而言,这并不是显而易见的胜利。
这些启发式方法可能会更好地初始化网络,并且在将其指向正确的路径后,任何优化器都可以做到。Sutskever等。杰夫·欣顿(Geoff Hinton)小组的(2013)在他们的ICML 2013年论文中提出了类似的观点。