时“单位方差”岭回归估计的极限


21

考虑带有附加约束的岭回归,该约束要求具有单位平方和(等效于单位方差);如果需要,可以假定也具有单位平方和: ÿy^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

\ lambda \ to \ infty\ hat {\ boldsymbol \ beta} _ \ lambda ^ *的限制是多少?β^λλ


以下是一些我认为是正确的声明:

  1. λ=0,有一个整洁的显式解决方案:采用OLS估计器β^0=(XX)1Xy并对其进行归一化以满足约束(可以通过添加Lagrange乘数并进行微分来查看此约束):

    β^0=β^0/Xβ^0.
  2. 通常,解决方案是\ hat {\ boldsymbol \ beta} _ \ lambda ^ * = \ big((1+ \ mu)\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I \ big)^ {- 1} \ mathbf X ^ \ top \ mathbf y \:\:\ text {需要$ \ mu $来满足约束}。\ lambda> 0

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    时,我看不到封闭形式的解决方案。看来该解决方案等效于通常的RR估计量,其中某些\ lambda ^ *进行了归一化以满足约束条件,但是我看不到\ lambda ^ *的封闭公式。λ>0 λλ
  3. λ,通常的RR估算器

    β^λ=(XX+λI)1Xy
    显然收敛到零,但是其方向 β^λ/β^λ收敛于Xy就是第一部分最小二乘(PLS)分量。

语句(2)和(3)一起使我认为β^λ也可以收敛到适当归一化的Xy,但是我不确定这是否是正确的,我都没有办法说服自己。

Answers:


17

几何解释

问题中描述的估计量是以下优化问题的拉格朗日乘数等效项:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

可以从几何上将其视为找到与球体和椭球体的交点接触的最小椭球f(β)=RSS g(β)=th(β)=1


与标准岭回归视图的比较

就几何视图而言,这更改了球体(误差)和球体()接触点的视图(用于标准岭回归)。进入一个新视图,我们在这里寻找球体(错误)接触曲线的点(受β范数约束的。由于与约束的相交,一个球体(左图中的蓝色)变为较低尺寸的图形。β2=tXβ2=1Xβ=1

在二维情况下,这很容易观察。

几何视图

调整参数我们会更改蓝色/红色球体的相对长度或和的相对大小(在拉格朗日乘子理论中,可能存在一种整齐的形式化和确切地描述,这意味着对于每个函数或逆函数都是单调函数,但是我想您可以直观地看到,残差平方和仅在我们减小时才增加。)tf(β)g(β) λ | | β | |tλ||β||

将溶液为是因为你0和之间主张上的线βλλ=0βLS

该解决方案为为(确如你评论)在第一主成分的载荷。这是对于最小的地方。这是圆在单个点上接触椭圆的点。βλλβ2βX2=1β2=t|Xβ|=1

在这个视图中,球和椭球的交点的边缘是点。在多个维度上,这些将是曲线β2=tβX2=1

(我想象中的第一个,这些曲线是椭圆,但他们变得更复杂。你可以想象椭圆的球被交叉一些椭圆形截头体,但其边缘不是简单的椭圆形)Xβ2=1β2t


关于的限制λ

首先,我(先前的编辑)写道,会有一些限制在该限制之上,所有解决方案都是相同的(它们位于点)。但是事实并非如此λlimβ

将优化视为LARS算法或梯度下降。如果对于任何点都有一个方向,我们可以更改,使得惩罚项增加小于SSR项减少,那么您就不会处于最小值。ββ|β|2|yXβ|2

  • 正常岭回归中,在处斜率(所有方向)。因此,对于所有有限的,解不能为(因为可以采取无穷小的步骤来减少残差平方和而不增加惩罚)。|β|2β=0λβ=0
  • 对于LASSO,这是一样的,因为:惩罚是(因此,它不是零斜率的二次方)。因此,LASSO将具有某个极限值在该极限值以上,所有解都为零,因为惩罚项(乘以)将增加,而剩余平方和减小。|β|1λlimλ
  • 对于受约束的山脊,您将获得与常规山脊回归相同的结果。如果您从开始更改,那么此更改将垂直于(垂直于椭圆的表面)和可以通过无穷小步骤更改,而无需更改惩罚项,但可以减少残差平方和。因此,对于任何有限的,点都不是解决方案。ββ β β * | X β | = 1 β λ β * ββ|Xβ|=1βλβ

有关限制更多说明λ

到无穷大的通常岭回归极限与约束岭回归中的不同点相对应。这个“旧”限制对应于等于-1的点。然后归一化问题中Lagrange函数的导数λμ

2(1+μ)XTXβ+2XTy+2λβ
对应于标准问题中Lagrange函数的导数的解

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


StackExchangeStrike撰写


+1。非常感谢,这非常有帮助!我需要一些时间来仔细考虑。
变形虫说恢复莫妮卡

值得指出的是,红色和黑色椭圆形的形状相同:这就是为什么它们接触的点位于连接其中心的直线上的原因。我的问题中#1点的漂亮图形证明。
变形虫说恢复莫妮卡

我试图了解您的绘图上的beta对应于具有无限lambda的岭估计量,已归一化为位于黑色椭圆上。我认为它在和(使用我的符号)-在您的图形上用黑色空心圆标记的两个点。因此,如果我们进行岭回归并对解进行归一化并将lambda从0增加到无穷大,则可能会使我们沿着相同的弧线,但直到PC1 才需要整个过程。而是明确地放置约束,使解决方案一直持续到PC1。 β * X β = 1β0βXβ=1
变形虫说恢复莫妮卡

+5(我开始了赏金计划,很高兴为您解答)。我也发表了自己的答案,因为我做了一些代数推导,这个问题实在太多了。我不相信您的结论,即会有一定的此后解决方案将不再更改,将由PC1给出。我没有从代数角度看待它,也不太理解您关于它为什么应该存在的论点。让我们尝试找出答案。λlim
变形虫说恢复莫妮卡

@amoeba,您对不存在的有限是正确的。我过于直觉地争论了一下,然后从常规脊回归的特定条件迅速跳到约束脊回归。对于,规则RR 在点具有零斜率(在所有方向上)。我以为(由于),您无法通过约束回归得到此结果。但是,因为受限于椭球您不能在所有方向上“移动”。 | β | 2 β = 0 β * 0 β | X β | = 1 βλlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus

10

这是@Martijn的漂亮几何答案的代数形式。

首先,当非常大时易于获得:在极限情况下,损失函数中的第一项可以忽略不计,因此可以忽略。优化问题变为这是的第一个主要成分λ →交通LIM λ →交通β * λ = β * = 一个ř

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λX
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(适当缩放)。这回答了问题。

现在,让我们考虑问题第二点提到的值的解决方案。将Lagrange乘数加到损失函数中,然后求微分μ X β 2 - 1 λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

当从零增长到无穷大时,此解决方案的行为如何?λ

  • 当,我们获得OLS解决方案的缩放版本:β *λ=0

    β^0β^0.
  • 对于正值但较小的值,该解决方案是某些岭估计的缩放版本:β *λ

    β^λβ^λ.
  • 当,满足约束条件所需的值为。这意味着该解决方案是第一个PLS组件的缩放版本(意味着相应的岭估计量的是):1 + μ 0 λ *β * Xλ=XXy(1+μ)0λ

    β^XXyXy.
  • 当变得更大时,必要的项变为负数。从现在开始,该解决方案是具有负正则化参数(negative ridge)的伪脊线估计器的缩放版本。在方向方面,我们现在过去岭回归与无限的拉姆达。1 + μ λ(1+μ)

  • 当,项将变为零(或趋于无限),除非,其中是的最大奇异值。这将使有限的,并且与第一主轴成比例。我们需要设置来满足约束条件。因此,我们获得了1 + μ Xλ μ = - λ / š 2 一个X + α 小号中号一个X X = û 小号Vβ * λ V 1 μ = - λ / š 2 一个X + ü 1个 ÿ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1β * V 1μ=λ/smax2+U1y1

    β^V1.

总体而言,我们看到此受约束的最小化问题包括以下频谱上的OLS,RR,PLS和PCA的单位方差版本:

OLSRRPLSnegative RRPCA

这似乎等同于一个晦涩的(?)化学计量学框架,称为“连续谱回归”(请参阅https://scholar.google.de/scholar?q="continuum+regression“,尤其是Stone&Brooks 1990,Sundberg 1993, Björkström&Sundberg 1999等)通过最大化临时标准允许相同的统一显然,这在时产生缩放的OLS ,在时产生PLS ,在时产生PCA ,并且可以显示出γ = 0 γ = 1 γ →交通0 < γ < 1 1 < γ <

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ<,请参见Sundberg 1993。

尽管我在RR / PLS / PCA / etc方面有丰富的经验,但我不得不承认我以前从未听说过“连续回归”。我还应该说我不喜欢这个词。


我根据@Martijn的原理图制作的示意图:

单位方差岭回归

更新:图以负山脊路径进行了更新,非常感谢@Martijn建议其外观。有关更多详细信息,请参见我的理解负岭回归中的答案。


“连续回归”似乎是旨在在一个公共框架内统一PLS和PCA的令人惊讶的广泛技术类别之一。顺便说一句,直到研究负向脊峰之前,我才从未听说过它(我提供了Bjorkstron和Sundberg的链接,1999年,您链接到的负向脊柱问题的第一条评论中的论文),尽管它似乎在以下文章中进行了广泛的讨论。化学计量学文献。它的发展似乎与其他统计领域孤立地存在,一定有历史原因。(1/3)
瑞安·西蒙斯

您可能需要阅读的一篇论文是de Jong等。(2001)。尽管我承认我还没有对数学进行严格的比较(他们也提供了同样的方式对其他PLS-PCA概括进行了回顾),但他们对“规范PLS”的表述似乎一眼就等同于您的表述。但是,看看他们是如何使问题更加严重的,可能会很有见识。(2/3)
瑞安·西蒙斯

如果链接消失,则全文为:Sijmen de Jong,Barry M. Wise,N。Lawrence Ricker。“规范的偏最小二乘和连续幂回归。” 化学计量杂志,2001年;15:85-100。doi.org/10.1002/... (3/3)
瑞安西蒙斯

1
嗯,好的,然后和转到无穷大,但是它们的比率仍然是。在任何情况下,负岭回归路径都应位于PLS和PCA向量之间的(负)扇区中,以使它们投影到椭圆上在点PLS和PCA之间。(当变为无穷大时,规范趋于无穷大也很有意义,因此路径继续向右下方移动,最初与负,PLS并最终与PCA相切) 1 + μ ± s 2 m a x | X β = 1 | μλ1+μ±smax2|Xβ=1|μ
Sextus Empiricus

1
它将添加到可视化中。我想象当前的三个RR路径点(圆和椭球接触的点)向右向下延伸,最终在无穷远处,圆和椭球应该在圆接触椭球的点的方向上“触摸” | X β - β| 2 = R S S | β | 2 = t p c a | X β | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sextus Empiricus
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.