我正在尝试了解“ 梯度下降”和“ 随机梯度下降”的历史。梯度下降是1847年在柯西(Cauchy)发明的。模拟系统类似的方法。第536–538页有关更多信息,请参见此处。
从那时起,梯度下降方法不断发展,我对它们的历史不熟悉。我特别对随机梯度下降的发明感兴趣。
可以在学术论文中广泛使用的参考。
我正在尝试了解“ 梯度下降”和“ 随机梯度下降”的历史。梯度下降是1847年在柯西(Cauchy)发明的。模拟系统类似的方法。第536–538页有关更多信息,请参见此处。
从那时起,梯度下降方法不断发展,我对它们的历史不熟悉。我特别对随机梯度下降的发明感兴趣。
可以在学术论文中广泛使用的参考。
Answers:
随机梯度下降法之前是随机近似法,首先由Robbins和Monro在他们的论文《一种随机近似法》中进行了描述。Kiefer和Wolfowitz随后发表了他们的论文,回归函数最大值的随机估计马克·斯通在评论中指出,熟悉随机近似的ML变体(即随机梯度下降)的人们更容易理解这一点。60年代沿这一方向进行了大量研究-Dvoretzky,Powell和Blum都发表了我们今天认为理所当然的结果。从Robbins和Monro方法到Kiefer Wolfowitz方法是一个相对较小的飞跃,只是对问题的重新构造,然后进入了随机梯度下降(用于回归问题)。正如Nocedal,Bottou和Curtis在这篇评论文章中提到的,上述论文被广泛认为是随机梯度下降的前身,它从机器学习的角度提供了简要的历史观点。
我相信Kushner和Yin在他们的书《随机逼近和递归算法和应用》中提出,该概念早在40年代就已用于控制理论中,但我不记得他们是否曾对此进行过引用或轶事,我也无法访问他们的书来确认这一点。
赫伯特·罗宾斯(Herbert Robbins)和萨顿·蒙罗(Sutton Monro)一种随机逼近方法 《数学统计年鉴》,第1卷。》,第22卷,第3期(1951年9月),第400-407页。
J. Kiefer和J. Wolfowitz 回归函数最大值的随机估计。数学。统计员。第23卷,第3号(1952),462-466
大型机器学习的 Leon Bottou和Frank E.Curtis和Jorge Nocedal 优化方法,技术报告,arXiv:1606.04838
看到
Rosenblatt F.感知器:大脑中信息存储和组织的概率模型。心理审查。1958年11月; 65(6):386。
我不确定是否在优化文献中先于发明了SGD(可能是),但是我相信他在这里描述了SGD在训练感知器中的应用。
如果系统处于正加固状态,则将正AV添加到“ on”响应的源集中的所有活动A单元的值,而将负AV添加到源中的活动单元-“关闭”响应集。
他称这为“两种加固”。
他还参考了有关这些“二价系统”的书。
Rosenblatt F.感知器:认知系统中统计可分离性的理论(Project Para)。康奈尔航空实验室;1958年。