对岭回归中“矩阵求逆的数值稳定性”的清晰解释及其在减少过拟合中的作用
我知道我们可以在最小二乘回归问题中采用正则化 w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] 并且这个问题有一个封闭形式的解决方案,如: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 我们看到在第二个方程中,正则化只是在\ boldsymbol {X} ^ T \ boldsymbol {X}的对角线上添加了\ lambda,这样做是为了提高矩阵求逆的数值稳定性。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 我目前对数值稳定性的“粗略”理解是,如果函数变得更加“数值稳定”,则其输出受输入噪声的影响较小。我很难将提高数值稳定性的概念与如何避免/减少过度拟合的问题联系在一起。 我曾尝试查看Wikipedia和其他一些大学网站,但他们没有深入解释为什么会这样。