已经有几个答案可以解释为什么对称正定矩阵如此重要,因此,我将提供一个答案来解释为什么它们不像某些人(包括其中一些答案的作者)所认为的那样重要。为了简单起见,我将重点放在对称矩阵上,并专注于Hessians和优化。
如果上帝使世界变得凸面,就不会有凸面优化,只会有优化。类似地,不会有(对称)正定矩阵,而只会有(对称)矩阵。但这不是事实,请处理。
如果二次规划问题是凸的,则可以“轻松”解决。如果它不是凸的,则仍然可以使用分支定界方法找到全局最优值(但可能需要更长的时间和更多的内存)。
如果使用牛顿法进行优化,并且在某些迭代中使用Hessian是不确定的,则不必将其“固定”为正定性。如果使用线搜索,则可以找到负曲率的方向,并沿着它们执行线搜索;如果使用信任区域,则存在一些足够小的信任区域,从而使信任区域问题的解决方案得以实现。
对于拟牛顿法,BFGS(如果问题受约束,则阻尼)和DFP保持Hessian近似或反Hessian近似的正定性。其他准牛顿法,例如SR1(对称等级1)不一定保持正定性。在解决所有问题之前,这是选择SR1解决许多问题的一个很好的理由-如果Hessian在沿最优路径的过程中确实不是正定的,则迫使拟牛顿近似为正定可能会导致目标函数的糟糕的二次逼近。相比之下,SR1更新方法是“像鹅一样松散”,并且可以随着其前进而彻底改变其确定性。
对于非线性约束的优化问题,真正重要的不是目标函数的Hessian,而是拉格朗日的Hessian。拉格朗日的Hessian即使在最佳状态下也可能是不确定的,实际上,仅是拉格朗日的Hessian投影到主动(线性和非线性)约束的Jacobian空空间中,这需要为正半-在最佳位置确定。如果通过BFGS对Lagrangian的Hessian建模,从而将其约束为正定值,那么它在任何地方都可能是糟糕的拟合,并且效果不佳。相比之下,SR1可以使其特征值适应其实际“看到”的东西。
关于这一切,我还有很多话要说,但这足以给您带来风味。
编辑:我写了两段是正确的。但是,我忘了指出它也适用于线性约束问题。在线性约束问题的情况下,拉格朗日的Hessian只是(简化为)目标函数的Hessian。因此,局部极小值的二阶最优性条件是目标函数的Hessian到主动约束的Jacobian的零空间的投影是正半定的。最值得注意的是,即使在线性约束问题上,目标函数的Hessian也不必(必须)处于最佳状态psd,通常也不需要。