正如Jed Brown提到的那样,非线性优化中的梯度下降与动力系统的时间步长之间的联系会以一定的频率重新发现(可以理解,因为它连接了两个看似不同的领域,因此对数学思维的连接非常令人满意)。但是,它很少成为有用的连接,尤其是在您描述的上下文中。
在反问题中,人们对解决(不适定)算子方程且不在范围内感兴趣。(您的最佳控制问题可以看作是且一个实例。)几种正则化策略(例如Tikhonov或Landweber)可以解释为单个伪时间某类的步骤。然后,想法是使用正则化参数的解释作为步长,以获取该参数的一些(自适应,后验)选择规则-反问题中的基本问题-并可能进行多个伪时间步长寻求真正的,非正规的解决方案(类似于ý δ ˚F ˚F = 甲- 1个 Ÿ δ = ÿ 0F(u)=yδyδFF=A−1yδ=y0数值延续)。有时称为连续正则化,通常在级别集方法的上下文中进行讨论。参见,例如Kaltenbacher,Szerzer,Neubauer的6.1章:非线性不适定问题的迭代正则化方法(de Gruyter,2008年)。
这个想法反复出现的第二种情况是非线性优化:如果您查看的梯度下降步骤,则
那么您可以将其解释为动力学系统的向前欧拉步骤
正如Jed Brown指出的,乍一看,只要伪时间步长足够小,这种方法收敛就不会产生非常令人惊讶的观察结果。有趣的部分是当您查看动力学系统并问自己时,所谓的梯度流的连续解具有什么性质X ķ + 1 = X ķ - γ ķ ∇ ˚F (X ķ),minxf(x)
xk+1=xk−γk∇f(xk),
x˙(t)=−∇f(x(t)),x(0)=x0.
γkx(t)是否具有(或应该具有),与梯度下降无关,是否与标准的Euler相比,是否可能导致更合适的时间步进(并因此优化)方法。我脑海中浮现出一些例子:
梯度流在其中存在自然功能空间吗?如果是这样,则应从相同的空间进行渐变(即离散化应符合要求)。例如,这导致针对不同的内积计算梯度的Riesz表示形式(有时称为Sobolev梯度),并且在实践中导致收敛更快的预处理迭代。
也许不应该属于向量空间,而应该属于流形(例如,对称正定矩阵),或者梯度流应该守恒的某个范数。在这种情况下,您可以尝试应用保留结构的时间步长方案(例如,涉及对适当的李群或几何积分器的拉回)。xx
如果不可微但是凸的,则正向Euler步骤对应于次梯度下降方法,由于步长限制,该方法可能非常慢。另一方面,隐式欧拉步骤对应于近端方法,该方法不适用此类限制(因此在例如图像处理中变得非常流行)。f
同样,通过外推步骤可以大大加速此类方法。激发这些效应的一种方法是观察标准的一阶方法,因为梯度方向会“振荡”(必须考虑标准图解,以了解共轭梯度为何胜过最陡的下降),因此不得不在极小值附近做许多小步骤。为了解决这个问题,可以通过不求解一阶动力学系统,而是求解阻尼的二阶系统来“抑制”迭代:
适当选择的。通过适当的离散化,这会导致以下形式的迭代(称为Polyak的重球法)
a1x¨(t)+a2x˙(t)=−∇f(x(t))
a1,a2xk+1=xk−γk∇f(xk)+αk(xk−xk−1)
(其中取决于)。对于近端点方法存在类似的想法,例如参见Dirk Lorenz和Thomas Pock 的论文http://arxiv.org/pdf/1403.3522.pdf。γk,αka1,a2
(我应该补充一点,据我所知,在大多数情况下,对于动力学算法的推导或收敛证明,并非严格将其解释为动力系统;有人可能会争辩说,诸如“隐式vs.显式”或Lie导数之类的想法。实际上比动力系统或梯度下降方法更基础。但是,从另一个角度来看问题也没有关系。)
编辑:从第二个上下文中我偶然发现了一个很好的例子,其中ODE解释用于推导Nesterov的过梯度方法的属性并提出改进建议:http :
//arxiv.org/pdf/1503.01243.pdf
(请注意,这也是杰德·布朗(Jed Brown)观点的一个例子,作者基本上没有发现Polyak的算法就重新发现了上面的点4。)
编辑2:作为指示,您可以采取多远的措施,请参阅http://arxiv.org/pdf/1509.03616v1.pdf的第5页。