亚当优化器被认为对其超参数值具有鲁棒性的原因是什么?


24

我正在阅读有关深度学习的Adam优化器的内容,并在Bengio,Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子:

尽管有时需要将学习速率从建议的默认值更改,但通常认为Adam对超级参数的选择相当可靠。

如果确实如此,那么这很重要,因为超参数搜索对于深度学习系统的统计性能非常重要(至少以我的经验)。因此,我的问题是,为什么亚当·鲁伯特(Adam Robust)拥有如此重要的参数?特别是β 2β1β2

我已经阅读了Adam的论文,但没有提供任何解释说明为什么它可以与这些参数一起使用,或者其坚固性为何。他们有其他理由吗?

另外,因为我读的文件,似乎中超参数的数量,他们试图在那里非常小,只2和β 2只有3个。这怎么可能彻底的实证研究,如果它仅适用于2×3超参数?β1β2


1
发送电子邮件给提出索赔的那本书的作者。询问他们索赔的依据。
Mark L. Stone

1
@ MarkL.Stone他只说他说是因为摘要说了。几乎没有说服力的论点。也许下次我将通过电子邮件发送实际论文的作者。
查理·帕克

7
因此,自我促进成为事实。
Mark L. Stone

@ MarkL.Stone在他的辩护中,他可能一直忙于正确回答,我只联系了3位作者中的1位。也许我可以与其他人联系,但是我不确定(如果至少一个人是教授)他们是否会回答。凭借DL中的炒作,我敢打赌他每天都会收到300封电子邮件。
查理·帕克

7
既然这本书已经出版了,亚当的作者已经确认了他们的算法有多么出色。让我想起了'89湾区地震。新闻广播电台未经证实报导了公路倒塌致死人数-表示他们正在寻求州长办公室的确认。然后他们给州长打电话,问他是否可以确认死亡人数。他说那是他听到的。然后,广播电台报告说,他们现在已经得到州长的确认。事实证明,总督的意思是他实际上是在那个广播电台上听到的。因此,通函确认。
Mark L. Stone

Answers:


7

β1β2α

β1β2 α


5

β1β2

这与普通香草随机梯度下降形成鲜明对比,其中:

  • 学习率不是每个参数的,而是一个单一的全局学习率,直率地应用于所有参数
    • (顺便说一下,这就是为什么在将数据发送到网络之前经常对数据进行白化,归一化以保持理想的每参数权重相似的原因之一)
  • 提供的学习率是使用的确切学习率,不会随着时间的推移而适应

亚当不是唯一具有自适应学习率的优化器。正如亚当(Adam)论文所言,它与Adagrad和Rmsprop高度相关,后者对超参数也极为不敏感。特别是,Rmsprop效果很好。

但亚当总体上是最好的。除了极少数例外,Adam会按照您的意愿做:)

在某些相当病理的情况下,Adam无法正常工作,尤其是对于某些非常不稳定的分布。在这些情况下,Rmsprop是一个很好的备用选项。但总的来说,对于大多数非病理性病例,亚当的表现都非常好。


1
β1,β2

是的,如果您的意思是,“这里有机会更深入地研究为什么吗?”,也许……。
休·帕金斯

2
这不是一个“更深层次的问题”。这似乎是本文中最重要的一点,不是吗?关键是它通过“自己”来做事,但是还有其他一些超参数似乎在魔术上很强大。那就是我的问题。在我看来,这似乎与本文的核心有关,除非我误解了亚当的观点。
查理·帕克

“在一些相当病理的情况下,亚当无法工作,尤其是对于一些非常不稳定的发行版。” <-这里有参考吗?
mimoralea '18 -10-6

0

查看ADAM公式,似乎令人感到困惑,在经过大量批处理迭代(例如〜400k)之后,基于原始误差的梯度本身在所采取的步骤中并未发挥实际作用,这似乎希望相关符号中的学习率配置参数。
也许在第一次迭代/ epocs期间,ADAM会比简单的SGD更好地控制权重自适应,但是今后的更新似乎减少到有些幼稚(?)有人能提供一些直觉来了解为什么这是实际需要的和/或效果很好的吗?


实际上似乎基于误差的梯度幅度本身甚至从一开始都不发挥真正的作用。问题是,为什么这样的标准化工作得很好,对于GD直觉指导DL和其他常见学习模型意味着什么?
Danny Rosen
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.