统计和大数据 adam

5

在大多数Tensorflow代码中，我已经看到Adam Optimizer的学习率恒定1e-4（即0.0001）。该代码通常如下所示： ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually intialize the variables sess.run(init_op) # now …

53 neural-networks deep-learning gradient-descent tensorflow adam

1

随机梯度下降的亚当方法如何工作？

我熟悉用于训练神经网络的基本梯度下降算法。我已经阅读了有关提出亚当：ADAM：一种随机优化方法的论文。尽管我确实有一定的见识（至少），但这篇论文对我总体而言似乎太高了。例如，成本函数通常是许多不同函数的总和，因此必须进行大量计算以优化其价值；就我所了解的主题而言，随机梯度下降仅针对这些函数的子集计算优化。对我来说，目前尚不清楚亚当如何做到这一点，以及为什么这会导致整个J （θ ）的训练误差减小。Ĵ（θ ）Ĵ（θ）J(\theta)Ĵ（θ ）Ĵ（θ）J(\theta) 我认为Adam通过考虑以前的渐变来更新其渐变。他们称其为利用动量吗？这种势头到底是什么？根据论文第二页的算法，它是某种移动平均值，例如对“规则”梯度的第一和第二矩的一些估计？实际上，我会怀疑亚当可以使人使用更大的有效步长来减小梯度，从而减小训练误差并结合随机逼近。因此，所得的更新向量应在空间维度上更多地“跳跃”，而不是像正常的梯度下降算法那样描述某些曲线。有人可以揭开亚当的神秘面纱吗？特别是它是如何收敛的，特别是亚当方法为何起作用以及其确切好处是什么？

45 neural-networks optimization gradient-descent adam

3

亚当优化器被认为对其超参数值具有鲁棒性的原因是什么？

我正在阅读有关深度学习的Adam优化器的内容，并在Bengio，Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子：尽管有时需要将学习速率从建议的默认值更改，但通常认为Adam对超级参数的选择相当可靠。如果确实如此，那么这很重要，因为超参数搜索对于深度学习系统的统计性能非常重要（至少以我的经验）。因此，我的问题是，为什么亚当·鲁伯特（Adam Robust）拥有如此重要的参数？特别是和β 2？β1β1\beta_1β2β2\beta_2 我已经阅读了Adam的论文，但没有提供任何解释说明为什么它可以与这些参数一起使用，或者其坚固性为何。他们有其他理由吗？另外，因为我读的文件，似乎中超参数的数量，他们试图在那里非常小，只2和β 2只有3个。这怎么可能彻底的实证研究，如果它仅适用于2×3超参数？β1β1\beta_1β2β2\beta_2

24 neural-networks deep-learning optimization hyperparameter adam

2

使用Adam Optimizer解释训练损失与迭代中的峰值

我正在使用i）SGD和ii）Adam Optimizer训练神经网络。当使用正常的SGD时，我得到了一条平滑的训练损耗与迭代曲线的曲线，如下图所示（红色的曲线）。但是，当我使用Adam Optimizer时，训练损耗曲线会有一些尖峰。这些尖峰的解释是什么？型号详情： 14个输入节点-> 2个隐藏层（100-> 40个单位）-> 4个输出单位我使用的默认参数为亚当beta_1 = 0.9，beta_2 = 0.999，epsilon = 1e-8和batch_size = 32。 i）与SGD ii）与Adam

16 neural-networks deep-learning adam

1

为什么为深度学习的Adam优化器包括偏差校正项很重要？

我正在阅读有关深度学习的Adam优化器的内容，并在Begnio，Goodfellow和Courtville撰写的新书Deep Learning中遇到了以下句子：亚当包括对一阶矩（动量项）和（无心）二阶矩的估计值的偏差校正，以说明它们在原点处的初始化。似乎包含这些偏差校正项的主要原因是，它以某种方式消除了和的初始化偏差。米Ť= 0mt=0m_t = 0vŤ= 0vt=0v_t = 0 我不是100％知道这是什么意思，但在我看来，这很可能意味着第一和第二时刻从零开始，并以某种方式从零开始倾斜，以不公平（或有用）的方式使值接近零。？虽然我很想知道这意味着什么，以及它如何损害学习。特别是，在优化方面，不偏向优化器有哪些优势？这如何帮助训练深度学习模型？另外，无偏见是什么意思？我很熟悉无偏标准偏差的含义，但是我不清楚在这种情况下这意味着什么。偏差校正真的很重要吗？还是亚当优化器论文过度夸大了它？就是这样，人们知道我已经非常努力地理解原始论文，但是我从阅读和重新阅读原始论文中受益匪浅。我认为其中一些问题可能会在此处得到解答，但我似乎无法解析答案。

15 machine-learning neural-networks optimization conv-neural-network adam

1

RMSProp和亚当vs SGD

我正在使用带有RMSProp，Adam和SGD的网络对EMNIST验证集进行实验。我使用SGD（学习率为0.1）和辍学（辍学概率为0.1）以及L2正则化（1e-05惩罚）达到了87％的准确度。当使用RMSProp和Adam测试相同的精确配置以及0.001的初始学习率时，我实现了85％的准确度和明显不那么平滑的训练曲线。我不知道如何解释这种行为。训练曲线缺乏平滑度并导致较低的准确性和较高的错误率的原因是什么？

12 machine-learning optimization sgd adam

Questions tagged «adam»