Answers:
在无罚回归中,您通常可以在参数空间中获得一个ridge *,其中沿最小二乘准则,沿着该岭的许多不同值都一样好或几乎一样好。
*(至少,这是似然函数中的一个脊线- 在RSS标准中,它们实际上是$的谷值,但我将继续将其称为“脊线”,因为这似乎很传统-甚至就像Alexis指出的那样在评论中,我可以称呼它为thalweg,是山谷的山脊对应物)
在参数空间中最小二乘准则中存在一个脊的情况下,当参数远离原点时,通过向上推该准则,通过脊回归得到的惩罚将消除那些脊:
[ 清晰的图像 ]
在第一个图中,参数值(沿山脊)的较大变化使RSS准则的变化很小。这可能会导致数值不稳定;它对微小的变化非常敏感(例如,数据值的微小变化,甚至是截断或舍入误差)。参数估计几乎完美相关。您可能会得到非常大的参数估计。
相比之下,通过提升参数远离0时岭回归最小化的事物(通过添加罚分),条件的微小变化(例如小小的舍入或截断误差)不会在结果中产生巨大的变化估计。惩罚项导致向0缩小(导致一些偏差)。少量的偏差可以大大改善方差(通过消除该峰值)。
估计的不确定性降低了(标准误差与二阶导数成反比,二阶导数因惩罚而变大)。
参数估计的相关性降低。如果小参数的RSS不会差很多,那么您现在将不会获得非常大的参数估计。
在Glen_b的插图上+1,在Ridge估算器上的统计评论。我只想在Ridge回归上添加一个纯数学(线性代数)的pov,可以回答OP问题1)和2)。
首先请注意,是一个 ×对称正半定矩阵是样本协方差矩阵的倍。因此它具有本征分解
现在,由于矩阵求逆对应于特征值的求逆,因此OLS估计器需要(请注意)。显然,这仅在所有特征值严格大于零(。对于这是不可能的。对于这通常是正确的-这是我们通常关心的多重共线性。
作为统计学家,我们还想知道数据微小扰动如何改变估计值。很明显,如果非常小,则任何的微小变化都会导致巨大变化。
因此,Ridge回归所做的是,随着
数值稳定性与收缩到零有关,因为它们都是向特征值添加正常数的结果:由于的微小扰动不会使反函数变化太大,因此数值稳定。因为现在项乘以,比具有反特征值的OLS解更接近零,所以它缩小到接近。0 V - 1 X ' Ý 1 /(ð 我 + λ )1 / ð