BFGS对初始Hessian近似的敏感性


9

我正在尝试实现Broyden-Fletcher-Goldfarb-Shanno方法来查找函数的最小值。我需要两个初始猜测&x_0和一个初始Hessian矩阵近似B_0。我对B_0的唯一要求是,如果Hessian是对称正定的,则B_0也应如此。查看维基百科,我发现典型的初始近似值为B_0 = I(单位矩阵)。这始终是一个好的初始B_0吗?有什么理由让我想选择除以外的其他任何东西?满足相同矩阵特性的B的其他选择会极大地影响该方法的收敛性吗? x1x0B0B0B0B0=IB0I

Answers:


6

如果你有一个合理的黑森州近似,它是更好地使用它,而不是任意B0=I

编辑:理由是,如果您开始接近解,则初始收敛速度是(对于任何)步线性,且步收敛因子为如果对于单位矩阵的某个秩r校正G,该值<1。因此,尝试将其减小到非常有价值。(这等效于对系统进行预处理。)收敛因子随时间提高,最终接近零(超线性收敛),但是在许多实际问题(尤其是高维问题)中,人们从来没有进行足够的迭代来达到超线性状态。因此,初始速度非常重要。xr>0r+1r+1q=B01f(x)G<1rG

一种重要情况是求解非线性最小二乘问题(最小化)时,初始Hessian 的高斯-牛顿近似值可以是无需二阶导数即可进行计算。使用它使BFGS方法仿射不变,即在线性变换下像牛顿法一样不变。F(x)22B0=F(x0)TF(x0)x

另一个重要的情况是您解决了一系列相关问题。通常,使用上一个问题的最终Hessian近似值重新启动求解器会大大减少所需的迭代次数。


如果期望hessian是对称正定矩阵,那么任何对称正定矩阵仍将导致收敛,但是收敛速度取决于与Hessian 有多?B0B0
保罗

不,最终,BFGS忘记了起始矩阵,因此收敛因总是具有相同的阶数。但这当然并不有趣,因为您永远不会做无限多的步骤。k
Wolfgang Bangerth 2012年

@Paul:看我的编辑。
Arnold Neumaier 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.