谁发明了随机梯度下降法?


36

我正在尝试了解“ 梯度下降”和“ 随机梯度下降”的历史。梯度下降是1847年在柯西(Cauchy)发明的。模拟系统类似的方法。第536–538页有关更多信息,请参见此处

从那时起,梯度下降方法不断发展,我对它们的历史不熟悉。我特别对随机梯度下降的发明感兴趣。

可以在学术论文中广泛使用的参考。


3
我在机器学习之前就了解了SGD,所以一定要早于整个过程
Aksakal

2
好吧,柯西(Cauchy)肯定在机器学习之前就发明了GD,因此SGC也是在以前发明的也就不足为奇了。
DaL

3
大部分情况下,Kiefer-Wolfowitz随机逼近en.wikipedia.org/wiki/Stochastic_approximation除了不是直接对梯度进行“模拟”之外,其他方法都是如此。
Mark L. Stone,

3
ML的“随机梯度下降”与凸优化中的“随机子梯度方法”相同。次梯度方法是在1960年至1970年的莫斯科苏联中发现的。也许也在美国。我看了一段视频,其中Boris Polyak(他是重球方法的作者)说,他(和所有人)从1970年开始考虑次梯度方法。(youtube.com/watch?v=2PcidcPxvyk&t=1963s)....
bruziuz

Answers:


27

随机梯度下降法之前是随机近似法,首先由Robbins和Monro在他们的论文《一种随机近似法》中进行了描述。Kiefer和Wolfowitz随后发表了他们的论文,回归函数最大值的随机估计马克·斯通在评论中指出,熟悉随机近似的ML变体(即随机梯度下降)的人们更容易理解这一点。60年代沿这一方向进行了大量研究-Dvoretzky,Powell和Blum都发表了我们今天认为理所当然的结果。从Robbins和Monro方法到Kiefer Wolfowitz方法是一个相对较小的飞跃,只是对问题的重新构造,然后进入了随机梯度下降(用于回归问题)。正如Nocedal,Bottou和Curtis在这篇评论文章中提到的,上述论文被广泛认为是随机梯度下降的前身,它从机器学习的角度提供了简要的历史观点。

我相信Kushner和Yin在他们的书《随机逼近和递归算法和应用》中提出,该概念早在40年代就已用于控制理论中,但我不记得他们是否曾对此进行过引用或轶事,我也无法访问他们的书来确认这一点。

赫伯特·罗宾斯(Herbert Robbins)和萨顿·蒙罗(Sutton Monro)一种随机逼近方法 《数学统计年鉴》,第1卷。》,第22卷,第3期(1951年9月),第400-407页。

J. Kiefer和J. Wolfowitz 回归函数最大值的随机估计。数学。统计员。第23卷,第3号(1952),462-466

大型机器学习的 Leon Bottou和Frank E.Curtis和Jorge Nocedal 优化方法,技术报告,arXiv:1606.04838


你能提供确切的参考吗?SGD的发明似乎是在40年代,但不清楚是谁在哪里?
DaL

当然,人们广泛认为它是1951年使用随机近似算法的 Robbins和Monro 。我听说40年代的控制理论文献中也出现了类似的情况(就像我说的那样,我认为是库什纳和尹的书,但我没有这本书有用),但是除了那个地方,每个人似乎都引用罗宾斯和门罗,包括Nocedal等。我链接到的参考。
David Kozak

因此,我们现在的主要候选人是H. Robbins和S. Monro。随机近似法。《数理统计年鉴》,1951年第22(3):400-407页,如Nocedal,Bottou和Curtis 所著
pdfs.semanticscholar.org /

我将其称为SGD的起源,但在总结(今天实际上是抽象的)中,它写为“ M(x)被假定为x的单调函数,但对实验者是未知的,并且希望找到方程M(x)= a的解x = 0,其中a是给定常数。” 如果M(x)是未知的,则无法推导它。也许是另一个远古祖先?
DaL

在某种意义上同意。基弗·沃尔福威茨(Kiefer Wolfowitz)使用对此的分析得出了他们的论文,这些论文以我们今天看到的形式更加容易辨认。如上所述,马克·斯通(Mark Stone)。他们的论文可以在这里找到: projecteuclid.org/download/pdf_1/euclid.aoms/1177729392
David Kozak

14

看到

Rosenblatt F.感知器:大脑中信息存储和组织的概率模型。心理审查。1958年11月; 65(6):386。

我不确定是否在优化文献中先于发明了SGD(可能是),但是我相信他在这里描述了SGD在训练感知器中的应用。

如果系统处于正加固状态,则将正AV添加到“ on”响应的源集中的所有活动A单元的值,而将负AV添加到源中的活动单元-“关闭”响应集。

他称这为“两种加固”。

他还参考了有关这些“二价系统”的书。

Rosenblatt F.感知器:认知系统中统计可分离性的理论(Project Para)。康奈尔航空实验室;1958年。


1
向前迈出了一大步,谢谢!我可以在此处找到第一个在线参考资料citeseerx.ist.psu.edu/viewdoc / ...我将对其进行介绍。但是,我希望找到更明确和正式的算法。
DaL

3
+1是关于优化的说明。自从它在机器学习中用于进行优化,并且由于优化在ML之前40或50年成为大问题-而且计算机也在同一时间进入画面之后,这似乎是一个很好的领先者。
韦恩

我不明白您为什么说此报价描述了SGD。
变形虫说莫妮卡(Reonica Monica)

@amoeba希望我没有记错,只是略读了这篇论文,但是我尽管他在描述感知器更新,这只是具有恒定学习率的SGD。
user0

3
那就对了。我只是说,从您选择的报价来看,随机性并不明显。我的意思是,“随机” GD仅意味着一次更新一个训练样本(而不是使用所有可用的训练样本来计算梯度)。en.wikipedia.org/wiki/Perceptron#Steps中给出的算法使该“随机”方面在步骤2中立即变得清晰。
变形虫说莫妮卡(Reonica Monica)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.