错误率是正则化参数lambda的凸函数吗?


11

在Ridge或Lasso中选择正则化参数lambda时,建议的方法是尝试使用不同的lambda值,测量验证集中的错误,最后选择返回最低错误的lambda值。

如果函数f(lambda)= error是凸的,这对我来说并不束手无策。会是这样吗?即,该曲线是否可以具有多个局部最小值(这意味着在lambda的某个区域中找到Error的最小值并不排除在某些其他区域中存在返回较小的Error的Lambda的可能性)

在此处输入图片说明

您的建议将不胜感激。

Answers:


11

最初的问题询问误差函数是否需要凸。 不,不是的。 下面介绍的分析旨在提供有关此问题和修改后的问题的一些见解和直觉,该问题询问误差函数是否可以具有多个局部最小值。

直观地讲,数据与训练集之间不必存在任何数学上必要的关系。 我们应该能够找到训练数据,该训练数据的模型最初很差,经过一些正则化后变得更好,然后又变得更糟。在那种情况下,误差曲线不能是凸的-至少在我们使正则化参数从变为情况下,至少不能是凸的。0

请注意,凸面不等于具有唯一的最小值!但是,类似的想法表明可能存在多个局部最小值:在正则化期间,拟合模型可能对某些训练数据会变得更好,而对其他训练数据却没有明显改变,然后对其他训练数据会变得更好,等等。这样的训练数据的混合应该产生多个局部最小值。为了使分析保持简单,我不会尝试说明这一点。

编辑(以响应更改后的问题)

我对以下介绍的分析及其背后的直觉非常有信心,以至于我着手以最粗略的方式找到一个示例:我生成了小的随机数据集,对其进行了套索,计算了一个小训练集的总平方误差,并绘制其误差曲线。几次尝试都会产生一个带有两个最小值的示例,我将对其进行描述。向量针对特征和以及响应的形式为。x 1 x 2 y(x1,x2,y)x1x2y

训练数据

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

测试数据

(1,1,0.2), (1,2,0.4)

套索使用glmnet::glmmetin 运行R,所有参数保留默认值。x轴上的值是该软件报告的值的倒数(因为它使用参数化其惩罚)。1 / λλ1/λ

具有多个局部最小值的误差曲线

数字


分析

让我们考虑将参数到数据的任何正则化方法,以及具有Ridge Ridge回归和Lasso共有的这些特性的对应响应:β=(β1,,βp)xiyi

  1. (参数化)该方法通过实数,未规范化的模型对应于。λ[0,)λ=0

  2. (连续性)参数估计连续取决于并且对于任何特征的预测值都随着连续变化。β^λβ^

  3. (收缩)如,。λβ^0

  4. (有限)对于任何特征向量,如,预测。xβ^0y^(x)=f(x,β^)0

  5. (单调误差)将任意值与预测值,进行比较的误差函数随的差异而增加因此,在某种程度上滥用符号的情况下,我们可以将其表示为。yy^L(y,y^)|y^y|L(|y^y|)

(可以将任何常量替换为零。)(4)

假设数据使得初始(未规范)参数估计不为零。让我们构建一个训练数据集,该数据集由一个观测值,其中。(如果找不到这样的,那么初始模型就不会很有趣!)设置。 β^(0)(x0,y0)f(x0,β^(0))0x0y0=f(x0,β^(0))/2

这些假设暗示误差曲线具有以下属性:e:λL(y0,f(x0,β^(λ))

  1. ÿ 0e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|)(由于的选择)。y0

  2. limλe(λ)=L(y0,0)=L(|y0|)(因为,,)。λβ^(λ)0y^(x0)0

因此,其图连续连接两个相等高(和有限)的端点。

该图显示了$ e $的等效图形。

定性地,存在三种可能性:

  • 训练集的预测永远不会改变。这不太可能-几乎您选择的任何示例都不会具有此属性。

  • 一些中间预测为是更糟比在开始或在极限。此功能不能是凸的。0<λ<λ=0λ

  • 所有中间预测都在到之间。连续性意味着至少存在最小值,在该最小值附近必须是凸的。但是由于渐近地接近一个有限常数,因此对于足够大的来说它不可能是凸的。02y0eee(λ)λ

图中的垂直虚线显示了图从凸(左侧)变为非凸(右侧)的位置。(此图中在附近也有一个非凸性区域,但是一般情况下不一定如此。)λ0


感谢您的详尽回答。如有可能,请在我编辑时查看问题并更新您的回复。
rf7

好的答案(+1)。实际上,我认为培训和测试数据点通常很少。当从相同(固定且足够规则)的分布中获得足够的训练和测试数据点时,此答案的结论是否会改变?特别是在这种情况下,是否存在极高的唯一局部最小值?
user795305

@Ben无关紧要的测试点数量:此结果完全取决于测试点的分布,而不是训练点的分布。因此,如果不对回归变量的多元分布做出一些特定的假设,“具有高概率”的问题将无法解决。同样,由于存在许多变量,这种多重局部极小现象的可能性将大大提高。我怀疑随机选择大型测试集(观察值是变量的许多倍)通常可能具有唯一的全局最小值。
ub

1
@whuber谢谢!我同意:训练点和测试点之间的(真实)分布应该相同,并且需要有足够的样本,以使训练点和测试集的经验分布一致。(似乎我在较早的评论中措辞不佳。)例如,如果具有共同的正态分布(具有非退化协方差),则我怀疑误差曲线具有唯一局部最小值的概率收敛于1(例如,在训练测试集中有样本,其中且固定(或者相对于缓慢增加))ñ ñ →交通p Ñ(x,y)nnpn
user795305

0

该答案特别涉及套索(不适用于岭回归)。

设定

假设我们有协变量用于建模响应。假设我们有训练数据点和验证数据点。pnm

令训练输入为,响应为。我们将在此训练数据上使用套索。也就是说,将根据训练数据估算出的一系列系数。我们会选择为我们基于其对验证组误差估计使用,具有输入和响应。使用X(1)Rn×py(1)Rn

(1)β^λ=argminβRpy(1)X(1)β22+λβ1,
β^λX(2)Rm×py(2)Rm
(2)λ^=argminλR+y(2)X(2)β^λ22,
我们对研究误差函数,因此我们得出了数据驱动的估算器。e(λ)=y(2)X(2)β^λ22β^λ^

计算方式

现在,我们将在等式中计算目标的二阶导数,而无需对或进行任何分布假设。使用差异化和一些重组,我们(正式)计算 (2)Xy

2λ2y(2)X(2)β^λ22=λ{2y(2)TX(2)λβ^λ+2β^λTX(2)TX(2)λβ^λ}=2y(2)TX(2)2λ2β^λ+2(β^λ)TX(2)TX(2)2λ2β^λ+2λβ^λTX(2)TX(2)Tλβ^λ=2{(y(2)X(2)β^λ)T2λ2β^λX(2)λβ^λ22}.
因为对于中的是分段线性的(因为是套索求解路径中的有限结集),所以导数是分段常数,而对于所有都是零。因此,的非负函数。β^λλKKλβ^λ2λ2β^λλK
2λ2y(2)X(2)β^λ22=2X(2)λβ^λ22,
λ

结论

如果我们进一步假设是从一些独立于连续分布中得出的,则向量几乎肯定是。因此,误差函数在上具有(几乎可以肯定)严格为正的二阶导数。但是,知道是连续的,我们知道验证错误是连续的。X(2){X(1),y(1)}X(2)λβ^λ0λ<λmaxe(λ)RKβ^λe(λ)

最后,根据套索对偶,我们知道随着增加而单调减少。如果我们可以确定也是单调的,那么的强凸性随之而来。但是,如果,则这很有可能接近一个。(我将在此处尽快填写详细信息。)X(1)β^λ22λX(2)β^λ22e(λ)L(X(1))=L(X(2))


1
您仅依靠是的连续分段线性函数来得出严格凸的结论。让我们看看这种扣除是否普遍有效。这样的函数之一是(其中表示四舍五入到最接近的整数)。假设和,那么。此错误函数具有无限多个局部最小值。它不是凸面的-只是到处都是凸面,除了孤立的点!这使我相信您正在做出其他未阐明的假设。β^λe^β^(λ)=|λ[λ]|[]y(2)=0X(2)=1e^(λ)=β^(λ)2
ub

@whuber好点!谢谢!我将在不久之后进一步编辑这篇文章。
user795305
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.