使用KKT 显示范数正则回归与范数约束回归之间的等价关系


11

根据参考文献1册第二册

已经提到,正规化回归(Ridge,LASSO和Elastic Net)与其约束公式之间存在等价关系。

我还查看了交叉验证1交叉验证2,但是我看不到明确的答案表明等价或逻辑。

我的问题是

如何使用Karush–Kuhn–Tucker(KKT)证明这种等效性?

以下公式适用于Ridge回归。

岭

注意

这个问题不是功课。只是增加了我对该主题的理解。

更新

我还不知道


为什么您需要多个答案?当前的答案似乎可以全面解决该问题。如果您想了解有关优化方法的更多信息,凸优化 Lieven Vandenberghe和Stephen P. Boyd是一个不错的起点。
Sycorax说要

@Sycorax,感谢您的评论和您提供给我的书。答案对我来说不太清楚,我无法要求更多的澄清。因此,一个以上的答案可以让我看到不同的观点和描述方式。
jeza

@jeza,我的答案缺少什么?
罗伊

1
请以文字形式输入您的问题,而不仅仅是张贴照片(请参阅 此处)。
gung-恢复莫妮卡

Answers:


10

更具技术性的答案是因为约束优化问题可以用拉格朗日乘数来表示。特别是,与约束优化问题相关的拉格朗日方程由 其中是选择用来满足问题约束的乘数。因此,可以通过相对于区分拉格朗日数来获得用于此优化问题的一阶条件(这已经足够,因为您正在使用适当的合适的凸函数进行工作)

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβ并将导数设置为0(由于LASSO部分具有不可微的点,因此会产生更多的细微差别,但是存在一些从凸分析的方法来泛化导数以使一阶条件仍然有效的方法)。显然,这些一阶条件与您写下的无约束问题的一阶条件相同。

但是,我认为很有用的是,为什么总的来说,对于这些优化问题,通常可以通过约束优化问题的角度或无约束问题的角度来考虑问题。更具体地说,假设我们有以下形式的无约束优化问题: 我们总是可以尝试直接解决此优化问题,但是有时将这个问题分解为有意义的问题子组件。特别是,不难看出 因此,对于固定值

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(并假设要优化的功能实际上已达到最佳状态),我们可以将其与值关联,以解决外部优化问题。这给了我们从不受约束的优化问题到受约束的问题的一种映射。在您的特定设置中,由于一切都很好地表现了弹性净回归,因此该映射实际上应该是一对一的,因此能够根据对特定应用程序更有用的情况在这两个上下文之间进行切换将非常有用。通常,约束问题和非约束问题之间的这种关系可能表现得不太好,但是考虑一下您可以在约束问题和非约束问题之间移动的程度仍然有用。t

编辑:根据要求,我将对岭回归进行更具体的分析,因为它可以捕获主要思想,同时又避免了与LASSO罚分的不可微性相关的技术问题。回想一下,我们正在解决优化问题(以矩阵表示法):

argminβ{i=1NyixiTβ}s.t.||β||2M

令为OLS解决方案(即,当没有约束时)。然后,我将集中讨论(只要存在)(因为存在),否则约束就不会引起兴趣,因为它不会绑定。可以写出此问题的拉格朗日 然后微分,得到一阶条件: ,这只是线性方程组,因此可以解决: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
用于选择乘数。然后只需选择乘数即可使约束成立,即我们需要μ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
,因为LHS在是单调的,所以存在。该方程式给出了从乘数到约束的显式映射与 当RHS存在并且 此映射实际上对应于相当直观的内容。该包络定理告诉我们,μμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)对应于我们从约束的较小松弛中得到的边际误差减小。这说明了为什么对应于。一旦约束不具有约束力,再放宽约束就没有任何价值,这就是乘数消失的原因。Mμ0M||βOLS||


如果可以的话,请您逐步为我们提供详细的答案,并附上实际的例子。
jeza

非常感谢,为什么您不提及KKT?我对该领域不熟悉,因此请把我当作高中生。
jeza

在这种情况下,KKT条件是我提到的“一阶条件”的推广,通过微分拉格朗日并将导数设置为0。由于在此示例中,约束条件相等,因此我们不需要在一般。在更复杂的情况下,所有发生的事情就是上面的一些等式变为不等式,并且因约束变为非约束性,乘数变为0。例如,这正是当时发生的情况。在上面。M>||βOLS||
stats_model

3

stats_model他的回答中进行了大量分析。

我尝试在“岭回归的等效公式的证明”中回答类似的问题。

在这种情况下,我将采取更多的动手方法。
让我们尝试查看2个模型中和之间的映射。tλ

正如我写的,并且可以从可以看出stats_model他的分析中映射取决于数据。因此,我们将选择问题的具体实现。然而,代码和解决方案的草图将为正在发生的事情增加直觉。

我们将比较以下两种模型:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

假设是正则化模型的解,是约束模型的解。x^x~

我们正在查看从到的映射,使得。 展望对我的解决方案,以求解的规范约束最小二乘一个可以看到,解决约束模型涉及解决的规则化模型,并找到的匹配(实际的代码呈现在最小二乘欧几里得()范数约束)。tλx^=x~
λtL2

因此,我们将运行相同的求解器,并且对于每个我们将显示最佳。tλ

求解器主要解决:

argλλsubject to(ATA+2λI)1ATb22t=0

所以这是我们的矩阵:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

这是我们的向量:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

这是映射:

在此处输入图片说明

从上面可以看出,对于足够高的值,参数符合预期。tλ=0

放大到[0,10]范围:

在此处输入图片说明

完整代码可在我的StackExchange Cross Validated Q401212 GitHub Repository中获得

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.