1
在什么条件下,岭回归能够比普通最小二乘回归有所改善?
岭回归估计参数ββ\boldsymbol \beta中的线性模型y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta通过β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,其中λλ\lambda是正则化参数。众所周知,当有许多相关的预测变量时,它的性能通常优于OLS回归(λ=0λ=0\lambda=0)。 岭回归的存在定理说,总是存在一个参数λ∗>0λ∗>0\lambda^* > 0,使得β^λβ^λ\hat{\boldsymbol \beta}_\lambda均方误差严格小于OLS的均方误差估算β^OLS=β^0β^OLS=β^0\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0。换句话说,\ lambda的最佳值λλ\lambda始终为非零。这显然是在1970年的Hoerl和Kennard中首先得到证实的,并且在我在网上找到的许多讲义中都重复了这一点(例如,在这里和在这里)。我的问题是关于该定理的假设: 是否有关于协方差矩阵\ mathbf X ^ \ top \ mathbf X的假设X⊤XX⊤X\mathbf X^\top \mathbf X? 是否有关于\ mathbf X的维数的假设XX\mathbf X? 尤其是,如果预测变量正交(即X⊤XX⊤X\mathbf X^\top \mathbf X是对角线),或者即使\ mathbf …