如果函数平滑,为什么它会加快梯度下降?


10

我现在读了一本书,标题为“使用Scikit-Learn和TensorFlow进行动手机器学习”,在第11章中,对ELU(指数ReLU)的解释如下。

第三,该函数在所有位置(包括z = 0左右)都是平滑的,这有助于加速Gradescent Descent,因为它在z = 0的左右两侧反弹得不那么快。

在此处输入图片说明

z装置上面的曲线图中的x轴上。我知道导数是平滑的,因为该z < 0直线具有曲线,并且在那个领域中导数不再等于0

但是,为什么函数“在所有地方都平滑,包括z = 0左右”会加速梯度下降呢?


顺便说一句,我在正确的SE中吗?数据科学,人工智能和交叉验证(以及MathSE)...在我看来,许多主题之间有着高度的关联...
Blaszard

2
我认为您可以在Data Science或Cross Validated上安全地发布此问题。可能对于人工智能也可以,但是我对该站点不太熟悉。
尼尔·斯莱特

好问题。平滑度使您可以在正确的方向上采取大胆的步骤,而不是暂时采取婴儿的步骤,因为在下一步中,梯度可能会急剧变化。对于收敛分析,请参见例如Nesterov的加速梯度下降以实现平滑和强凸优化
Emre

@NeilSlater AI的范围非常不清楚。他们解决了这些问题。因此,DS和CV将是最好的选择:)
Dawny33

Answers:


1

我的猜测是由于导数,因为ReLU在0处有一个不连续的导数。因此,如果使用以下定义:

ff(x+ϵ)f(xϵ)2ϵ

x


0

初级:函数的三个属性在此处相关:连续,单调和可微。RELU是连续的,单调螺母在z = 0时不可微分。指数relu或ELU是所有这三个属性。

微分或梯度为您提供方向。当在某个点上未定义函数的导数时,则在该点处的梯度方向不确定。

当应用梯度下降时,我们希望连续修改参数,以使损失函数稳步减小,这与说我们希望继续向最小值移动的观点相同。

当在某个点上未定义损失函数的导数时,梯度是不确定的。这意味着梯度下降可能会沿错误的方向移动。这种不确定性导致的延迟量取决于学习率和其他超参数。统计学上,不管超参数如何,z = 0时RELU中的未定义导数的确会减缓梯度下降的收敛。


初始化后,参数变为z = 0的可能性很小。
Pieter's

0

更快或更低是一个相对术语,必须在与之比较的上下文中加以理解。因此,为了理解这一点,我们必须首先考虑梯度下降如何与其他类型的激活函数一起工作。

示例设置

n

z1=W1x+b1

a1=f(z1)

...

zn=Wnan1+bn

y=f(zn)

f

Tanh和Sigmoid-消失梯度

ff(x)(1,1)x

yW1

dfdW1=dfdWndWndWn1...dW2dW1

0<i<n

dXidXi1=f(Wi1ai2+bi1)×ai2(1,1)

(1,1)fai2(1,1)

dfdW1ndfdW1

RELU和Dead Neuron

ai>0f

dXidXi1=ai2
dfdW1=a1a2a3...an1

x>0x<0

泄漏的RELU和ELU

x>0x<1

我引用了原始纸来说明两者之间的区别。

尽管LReLU和PReLU也具有负值,但它们不能确保稳健的去噪状态。ELU在输入较小的情况下饱和到负值,从而减少了前向传播的变异和信息。

直观的解释如下。在ELU中,每当x变得足够小时,梯度就会变得非常小且饱和(以与Tanh和Sigmoid相同的方式)。小梯度意味着学习算法可以专注于其他权重的调整,而不必担心与饱和神经元的交互作用。

考虑一次2的多项式,它可以表示为3-d空间中的光滑表面。为了找到局部最小值,梯度下降算法将需要考虑x和y方向的陡度。如果梯度在x方向和y方向上均为负,则不清楚哪种方法更好。因此在两者之间的某个位置选择一条路径是明智的。但是,如果我们已经知道x方向上的一切都是平坦的(零梯度),那将成为y方向的必然选择。换句话说,您的搜索空间变得更小。

特别说明

在深度学习中,有很多主张没有足够的经验证据或深入的理解来支持它。在ELU的情况下,虽然确实可以使某些数据集更快收敛,但也可以使学习算法陷入不同数据集的局部最大值。我们只是还不够了解。


0

我有一个直观的概念,为什么平滑函数的优化速度更快,却没有数学证明或其他任何方法。

梯度下降计算激活函数的导数以确定权重的变化。当激活函数具有硬性限制时(例如,对于ReLu,在z = 0处),当更改权重时,对于特定数据点,单元的激活会发生根本变化(即始终为零或线性)。

其他权重需要适应特定单位针对特定数据点的这种根本不同的行为。但是,如果在下一个时期内设备的行为再次发生根本性变化,则网络会继续适应上一个时期的变化。

有了平滑的功能,就不会有如此根本的变化。因此,网络可以更加稳定。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.