损失函数的二阶近似（深度学习书，7.33）

在Goodfellow（2016）的一本关于深度学习的书中，他谈到了尽早停止与L2正则化的等效性（https://www.deeplearningbook.org/contents/regularization.html第247页）。

成本函数二次逼近由下式给出： $j$

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

其中是Hessian矩阵（方程7.33）。这是缺少中期吗？泰勒展开应该是： $H$

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

neural-networks deep-learning loss-functions derivative

— 史蒂夫
source

他们谈论最佳权重：

我们可以在权重的经验最优值附近以二次逼近对成本函数建模 $J$ $w^∗$

在这一点上，一阶导数为零，因此省略了中间项。

— 扬·库卡卡（Jan Kukacka）
source