如果函数平滑，为什么它会加快梯度下降？

10

我现在读了一本书，标题为“使用Scikit-Learn和TensorFlow进行动手机器学习”，在第11章中，对ELU（指数ReLU）的解释如下。

第三，该函数在所有位置（包括z = 0左右）都是平滑的，这有助于加速Gradescent Descent，因为它在z = 0的左右两侧反弹得不那么快。

在z装置上面的曲线图中的x轴上。我知道导数是平滑的，因为该z < 0直线具有曲线，并且在那个领域中导数不再等于0。

但是，为什么函数“在所有地方都平滑，包括z = 0左右”会加速梯度下降呢？

deep-learning gradient-descent

— 布拉扎德
source

顺便说一句，我在正确的SE中吗？数据科学，人工智能和交叉验证（以及MathSE）...在我看来，许多主题之间有着高度的关联...

— Blaszard

2

我认为您可以在Data Science或Cross Validated上安全地发布此问题。可能对于人工智能也可以，但是我对该站点不太熟悉。

— 尼尔·斯莱特

好问题。平滑度使您可以在正确的方向上采取大胆的步骤，而不是暂时采取婴儿的步骤，因为在下一步中，梯度可能会急剧变化。对于收敛分析，请参见例如Nesterov的加速梯度下降以实现平滑和强凸优化

— Emre

@NeilSlater AI的范围非常不清楚。他们解决了这些问题。因此，DS和CV将是最好的选择：）

— Dawny33

Answers:

1

我的猜测是由于导数，因为ReLU在0处有一个不连续的导数。因此，如果使用以下定义：

f^{'} \approx \frac{f (x + ϵ) - f (x - ϵ)}{2 ϵ}

$f' \approx \frac{f(x+\epsilon) -f(x-\epsilon)}{2 \epsilon}$

$x$

— 亚历克斯
source

0

初级：函数的三个属性在此处相关：连续，单调和可微。RELU是连续的，单调螺母在z = 0时不可微分。指数relu或ELU是所有这三个属性。

微分或梯度为您提供方向。当在某个点上未定义函数的导数时，则在该点处的梯度方向不确定。

当应用梯度下降时，我们希望连续修改参数，以使损失函数稳步减小，这与说我们希望继续向最小值移动的观点相同。

当在某个点上未定义损失函数的导数时，梯度是不确定的。这意味着梯度下降可能会沿错误的方向移动。这种不确定性导致的延迟量取决于学习率和其他超参数。统计学上，不管超参数如何，z = 0时RELU中的未定义导数的确会减缓梯度下降的收敛。

— 动态星尘
source

初始化后，参数变为z = 0的可能性很小。

— Pieter's

0

更快或更低是一个相对术语，必须在与之比较的上下文中加以理解。因此，为了理解这一点，我们必须首先考虑梯度下降如何与其他类型的激活函数一起工作。

示例设置

$n$

$z_1 = W_1 x + b_1$

$a_1 = f(z_1)$

...

$z_n = W_n a_{n-1} + b_n$

$y = f(z_n)$

$f$

Tanh和Sigmoid-消失梯度

$f$ $f'(x) \in (-1, 1)$ $x$

$y$ $W_1$

\frac{d f}{d W_{1}} = \frac{d f}{d W_{n}} \frac{d W_{n}}{d W_{n - 1}} . . . \frac{d W_{2}}{d W_{1}}

$\frac{df}{dW_1} = \frac{df}{dW_{n}} \frac{dW_{n}}{dW_{n-1}} ... \frac{dW_{2}}{dW_{1}}$

$0 < i < n$

\frac{d X_{i}}{d X_{i - 1}} = f^{'} (W_{i - 1} a_{i - 2} + b_{i - 1}) \times a_{i - 2} \in (- 1, 1)

$\frac{dX_{i}}{dX_{i-1}} = f'(W_{i-1}a_{i-2} + b_{i-1}) \times a_{i-2} \in (-1, 1)$

$(-1, 1)$ $f'$ $a_{i-2}$ $(-1, 1)$

$\frac{df}{dW_1}$ $n$ $\frac{df}{dW_1}$

RELU和Dead Neuron

$a_i > 0$ $f$

\frac{d X_{i}}{d X_{i - 1}} = a_{i - 2}

$\frac{dX_{i}}{dX_{i-1}} = a_{i-2}$

\frac{d f}{d W_{1}} = a_{1} a_{2} a_{3} . . . a_{n - 1}

$\frac{df}{dW_1} = a_1 a_2 a_3 ... a_{n-1}$

$x > 0$ $x < 0$

泄漏的RELU和ELU

$x > 0$ $x<1$

我引用了原始纸来说明两者之间的区别。

尽管LReLU和PReLU也具有负值，但它们不能确保稳健的去噪状态。ELU在输入较小的情况下饱和到负值，从而减少了前向传播的变异和信息。

直观的解释如下。在ELU中，每当x变得足够小时，梯度就会变得非常小且饱和（以与Tanh和Sigmoid相同的方式）。小梯度意味着学习算法可以专注于其他权重的调整，而不必担心与饱和神经元的交互作用。

考虑一次2的多项式，它可以表示为3-d空间中的光滑表面。为了找到局部最小值，梯度下降算法将需要考虑x和y方向的陡度。如果梯度在x方向和y方向上均为负，则不清楚哪种方法更好。因此在两者之间的某个位置选择一条路径是明智的。但是，如果我们已经知道x方向上的一切都是平坦的（零梯度），那将成为y方向的必然选择。换句话说，您的搜索空间变得更小。

特别说明

在深度学习中，有很多主张没有足够的经验证据或深入的理解来支持它。在ELU的情况下，虽然确实可以使某些数据集更快收敛，但也可以使学习算法陷入不同数据集的局部最大值。我们只是还不够了解。

— 路易·T
source

0

我有一个直观的概念，为什么平滑函数的优化速度更快，却没有数学证明或其他任何方法。

梯度下降计算激活函数的导数以确定权重的变化。当激活函数具有硬性限制时（例如，对于ReLu，在z = 0处），当更改权重时，对于特定数据点，单元的激活会发生根本变化（即始终为零或线性）。

其他权重需要适应特定单位针对特定数据点的这种根本不同的行为。但是，如果在下一个时期内设备的行为再次发生根本性变化，则网络会继续适应上一个时期的变化。

有了平滑的功能，就不会有如此根本的变化。因此，网络可以更加稳定。

— 彼得
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.