当人们(严格地)考虑凸成本函数时,BFGS的推导更加直观:
但是,一些
背景 信息是必需的:假设,要最小化凸函数
假设有一个近似解x_k。然后,一个近似于最小的˚F由最小截短泰勒展开的
F(X_K + P)\约F(X_K)+ \ nabla F(X_K)^ TP + \压裂{1} {2} p ^ TH( x_k)p。\ quad(*)
就是说,寻找p使得(*)最小并设置x_ {k + 1}:= x_k + p。计算(*)的梯度-“相对于p ”-并将其设置为零可得出以下关系:
X ķ ˚F ˚F (X ķ + p )≈ ˚F (X ķ)+ ∇ ˚F (X ķ )Ť p + 1
F(x )→ 分钟X ∈ řñ。
XķFp (* )X ķ + 1:= X ķ + p (* )p ħ (X ķ)[ X ķ + 1 - X ķ ] = ∇ ˚F (X ķ + 1)- ∇ ˚F (X ķ),F(xķ+ p )≈ ˚F(xķ)+ ∇ ˚F(xķ)Ťp + 12pŤH(xķ)p 。(* )
p(* )Xk + 1:= xķ+ p(* )pH(xķ)[ xk + 1− xķ] = ∇ ˚F(xk + 1)- ∇ ˚F(xķ),
其中
H是“梯度的雅可比”或黑森矩阵。
由于Hessian的计算和反演费用很高...
... 一个简短的答案
(参见Broyden的更新)可能是BFGS更新H_ {k + 1} ^ {-1}
在
明智选择的加权Frobenius范数中H− 1k + 1最小化了
∥ ^ h− 1ķ- 高− 1∥w ^
,服从
- H[ xk + 1− xķ] = ∇ ˚F(xk + 1)- ∇ ˚F(xķ) -这就是为什么-
- HŤ= 高,因为黑森州是对称的。
然后,权重的选择在作为逆平均海森,请参阅。此处为该语句但没有证明,给出了BFGS更新公式()。w ^∥ ^ h∥w ^:= ∥ W¯¯1 / 2Hw ^1 / 2∥F
G := ∫1个0H(xķ+ τp )dταķ= 1
要点是:
- 人们试图通过二次近似的解来逼近实际成本的解。
- Hessian及其逆的计算非常昂贵。一个人喜欢简单的更新。
- 更新选择最适合于逆而不是实际的Hessian。
- 这是2级更新,是Frobenius规范中权重的特定选择的结果。
一个较长的答案,应该包括如何选择权,如何使这项工作非凸问题(其中曲率的条件出现,需要寻找方向的缩放),以及如何导出实际公式进行更新。参考在这里(德语)。p