回归中岭正则化的解释


25

关于最小二乘背景下的岭罚,我有几个问题:

βridge=(λID+XX)1Xy

1)该表达式表明X的协方差矩阵朝对角线矩阵收缩,这意味着(假设变量在过程之前已标准化)输入变量之间的相关性将降低。这种解释正确吗?

2)如果它是收缩应用程序,为什么不使用,假设我们可以通过归一化将lambda限制在[0,1]范围内。(λID+(1λ)XX)

3)什么是的规范化,以便可以将其限制在[0,1]之类的标准范围内。λ

4)在对角线上添加一个常数会影响所有特征值。仅攻击奇异值或接近奇异值会更好吗?这是否等同于在回归之前将PCA应用于X并保留前N个主要成分,或者它具有不同的名称(因为它不会修改交叉协方差计算)?

5)我们可以对交叉协方差进行正则化吗,或者有什么用,意味着

βridge=(λID+XX)1(γXy)

较小的会降低交叉协方差。显然,这会同等地降低所有,但是也许有一种更聪明的方法,如根据协方差值进行硬/软阈值设置。βγβ


ii。岭惩罚来自对MSE目标函数的拉格朗日乘数的限制LASSO是相同的,但代替。我正在使用手机,因此目前无法轻松发布推导。但这是个很大的问题| β |β2T|β|
shadowtalker 2014年

Answers:


19

好问题!

  1. 是的,这是完全正确的。您可以看到岭罚是一种解决多重共线性问题的可能方法,当许多预测变量高度相关时,多重共线性问题就会出现。引入岭惩罚有效地降低了这些相关性。

  2. 我认为这部分是传统,部分是您的第一个方程式中所述的岭回归公式来自以下成本函数:如果,则可以删除第二项,并且最小化第一项(“重构误差”)会导致的标准OLS公式。保留第二项将得出的公式。这个成本函数在数学上非常方便处理,这可能是首选“非标准化” lambda的原因之一。λ = 0 β β - [R d ë

    L=yXβ2+λβ2.
    λ=0ββridge
  3. 标准化一种可能方法是按总方差进行缩放,即使用代替。这不一定会将限制为,但会使其“无量纲”,并且可能会导致在所有实际情况下最优小于(注意:这只是一个猜测!)。- [R XXλ - [R XXλ λ [ 0 1 ] λ 1λtr(XX)λtr(XX)λλ[0,1]λ1

  4. “仅攻击小特征值”确实有一个单独的名称,称为主成分回归。PCR和ridge回归之间的联系是,在PCR中,您可以有效地执行“阶跃罚分”,在一定数目后切断所有特征值,而ridge回归应用“软罚分”,对所有特征值进行惩罚,较小的则受到更多惩罚。Hastie等人在《统计学习的要素》中对此做了很好的解释。(免费在线提供),第3.4.1节。另请参阅我在岭回归与PCA回归之间的关系中的答案。

  5. 我从未见过这样做,但是请注意,您可以考虑采用形式的成本函数 这缩小为零,而不是其他一些预定义值。如果一个作品出来的数学,你会到达最佳给出这也许可以看作是“正则化交叉协方差”?

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),

1
您能解释为什么在加上意味着的协方差矩阵朝对角线矩阵收缩吗?我想这是一个纯粹的线性代数问题。λIDXXX
海森堡2014年

3
@Heisenberg,那么,是协方差矩阵(最多为的比例因子)。计算需要反转此协方差矩阵。在岭回归中,我们将,因此可以将视为协方差矩阵的正规化估计。现在,术语是对角矩阵,对角线上有。想象非常大;然后,总和由对角项主导,因此随着增长,正则化协方差变得越来越对角。X 1 / Ñ β X X + λ X X + λ λ λ λ λ λXXX1/NβXX+λIXX+λIλIλλλIλ
变形虫说恢复莫妮卡2014年


10

关于问题4的进一步评论。实际上,岭回归确实有效地处理了的较小特征值,而大部分不考虑较大特征值。 XTX

要看到这一点,用的奇异值分解来表示岭回归估计量, X

X=i=1nσiuiviT

其中向量相互正交,且v i向量也相互正交。这里的特征值X Ť Xσ 2 = 1 2 ... ÑuiviXTXσi2i=1,2,,n

然后你可以证明

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

现在,考虑了“过滤因子” 。如果λ = 0,则滤波因子为1,我们得到了传统的最小二乘解。如果λ > 0σ 2 » λ,则滤波器系数基本上是1。如果σ 2 « λ,则该因子基本上是0。因此对应于小的特征值的术语有效滴出,而对应于这些保留较大的特征值。 σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

相比之下,在此公式中,主成分回归仅使用因子1(对于较大的特征值)或0(对于所丢弃的较小的特征值)。


1
这正是我在回答中简短提及的内容,但是很高兴将其详细阐述并以数学方式演示+1。
变形虫说恢复莫妮卡2014年

5

问题1、2和3链接在一起。我想认为是的,在线性回归模型中引入Ridge惩罚可以解释为的特征值的缩小。为了进行这种解释,必须首先假设X居中。这种解释是基于以下等价: λ X + Ý = κ α X + 1 - α Ý α = λXX

λx+y=κ(αx+(1α)y),
κ=1+λ。如果0λ<+,它紧跟在0<α1α=λ1+λκ=1+λ0λ<+0<α1

您描述为“仅攻击奇异值或接近奇异值”的技术也称为奇异频谱分析(出于线性回归的目的)(请参见等式19),如果“攻击”是指“去除”。交叉协方差不变。

也可以通过主成分回归来去除低的奇异值。在PCR中,对进行PCA,并对选择​​的所得成分进行线性回归。与SSA的不同之处在于,它会影响交叉协方差。X


谢谢。在PCR中,执行尺寸缩减后,会计算与y的协方差。PCR和SSA之间有区别吗?您的伽玛(不是我的伽玛),如何选择阿尔法以[0,1]为界?
Cagdas Ozgenc 2014年

1
γκ

我认为您对SSA和PCR的区别是正确的,但是我们应该写下来以确保。
Vincent Guillemot 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.