L1回归估计值是中位数,而L2回归估计值是什么意思?


24

因此,有人问我一个问题,即估计哪些中央度量L1(即套索)和L2(即岭回归)。答案是L1 =中位数,L2 =平均值。是否有任何类型的直观推理?还是必须通过代数确定?如果是这样,我该怎么做?


4
通过L1 / L2,您是指目标函数还是约束?如果是目标函数,则使用条件中位数将L1误差最小化,将条件均值L2误差最小化。如果存在约束(ridge / lasso指的是什么),那么这是错误的思考方式。他们的“中央措施”仍以有条件均值为目标,但对处罚不同。β
muratoa

Answers:


24

对于为什么L1损失函数会产生中值,有一个简单的几何解释。

回想一下,我们在一个维度上工作,因此,想象一条数字线水平分布。在数字线上标出每个数据点。将手指放在线上的某个位置;您的手指将是您当前的候选估算。

假设您将手指向右移动一点,例如向右说单位。总损失会怎样?好吧,如果你的手指是两个数据点之间,并且您在一个数据点移动它,你已经通过增加总损耗为每个数据点到离开你的手指,并减少它由为每个数据指向手指的右侧。因此,如果手指右边的数据点多于左边的数据点,那么将手指向右移动会减少总损耗。换句话说,如果一半以上的数据点位于手指的右侧,则应将手指向右移动。δδδ

这会导致您将手指移向某个点,其中一半的数据点在该点上,另一半在右边。该点是中位数。

那就是L1和中位数。不幸的是,对于L2和均值,我没有类似的“全部直觉,没有代数”的解释。


7
如果我们在谈论一个简单的点估计,那么它就是简单的演算。ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niyi
muratoa

3
@muratoa,是的,我知道微积分的推导,但是这个问题专门要求给出一个关于直觉并避免代数的解释。我假设提问者已经知道微积分的推导,但是正在寻找可以提供更多直觉的东西。
DW 2012年

我认为OP提到了回归,这表明他在谈论给定x的y的估计值,x是使用最小二乘法的条件均值和均值绝对误差的条件中值。相同的解释应该起作用,但问题有所不同。均值的演算解释非常清楚和直接。也许可以用与DW中位数相似的方式给出均值的解释。样本均值是总体均值的无偏估计。
Michael R. Chernick

当您将估计值从样本移开时,均方误差会由于偏差的增加而变化。当估计将d作为候选估计值加到样本均值时,均方误差实际上会增加d 22
Michael R. Chernick

11
对于L1情形,存在由muratoa给出的代数的快速且肮脏的版本。观察到,除了当|的导数。y i - β | WRT β- 小号Ñÿ - β ,即- 1如果β < ÿ + 1如果β > ÿ 。所以dβ=yi|yiβ|βsgn(yiβ-1个β<ÿ一世+1个β>ÿ一世,当 β y i时除外。当 y i - β中存在相同数量的正项和负项时,导数就消失了,大致而言,当 β y i的中位数时,导数消失。ddβ1个ñ一世|ÿ一世-β|=-1个ñ一世sGñÿ一世-ββÿ一世ÿ一世-ββÿ一世
伊夫2012年

17

该解释是对muratoaYves对DW答案评论的总结。尽管它基于演算,但我发现它简单易懂。

假设我们已经并想要基于它们得出一个新的估计值β。当我们找到使损失的导数为零的β时,获得的损失最小。ÿ1个ÿ2ÿķββ

L1损失

大号1

大号1个=1个ķ一世=1个ķ|ÿ一世-β|
sgnyi-βyi>β时为1,当yi<β时为-1。当yi-β之间存在相同数量的正负项时,导数等于0,这意味着β应该是yi的中值。
大号1个β=-1个ķ一世=1个ķsGñÿ一世-β
sGñÿ一世-βÿ一世>βÿ一世<βÿ一世-ββÿ一世

L2损失

大号2

大号2=1个ķ一世=1个ķÿ一世-β2
大号2
大号2β=-2ķ一世=1个ķÿ一世-β
因此,为了使L2损失最小,β应该是yi的平均值。
大号2β=0β=1个ķ一世=1个ķÿ一世

βÿ一世

3

通过一个更实际的示例(也适用于L2损失函数)为DW的答案添加:

想象一下一个由4栋彼此靠近(例如10米)的房屋组成的小村庄。在距离这些商店1公里的地方,您还有另一间非常孤立的房子。现在,您到达那个城镇,想要在某个地方建造自己的房子。您想住在其他房屋附近并与所有人成为朋友。考虑这两种替代方案:

  1. 您决定在到任何房屋的平均距离最小的位置(即最小化L1损失函数)。

    • 如果您将房屋放置在村庄的中心,则距4所房屋约10米,距一所房屋1公里,平均距离约为200米(10 + 10 + 10 + 10 + 1000 / 5)。
    • 如果您将房屋放置在距离村庄500米的位置,那么您将与5座房屋相距500米左右,因此平均距离为500米。
    • 如果您将房屋放置在隔离的房屋旁边,则您将与村庄(4所房屋)相距1公里,而与1所房屋相距10米,则平均距离约为800米。

    因此,通过在村子里建房子可以达到100米的最低平均距离。更具体地说,您将在这4栋房屋的中间建造房屋,以获得平均几米的距离。事实证明,此点是“ 中位数点 ”,您可以使用中位数公式类似地获得该点。

  2. 您决定采取民主方式。您要求五个未来邻居中的每个邻居为您的新房子提供首选位置。他们都喜欢您,并希望您与他们住在一起。因此,他们都说自己的首选位置是他们自己房屋旁边的位置。您将五个邻居的所有投票位置的平均值作为平均值,结果是“距离村庄200米”(投票的平均值:0 + 0 + 0 + 0 + 1000/5 = 200)使用均值公式可以类似地获得5栋房屋的“ 均值 ”。而且,该位置与最小化平方距离之和(即L2损失函数)的位置完全相同。让我们做一下数学看看:
    • 在此位置,平方距离的总和是:200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • 如果我们在村庄中心建造房屋,则平方距离的总和将为:0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • 如果我们在距离村庄100米的地方建造房屋(如1),平方距离的总和是:100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • 如果我们在离孤立房屋100米的地方建造房屋,则平方距离的总和为:900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3250 000

因此,是的,有趣的是,当我们最小化距离的总和时,有点反直觉,我们不会在平均值的意义上最终处于“中间”,而在意义上中位数。这是最流行的回归模型之一OLS使用平方误差而不是绝对误差的部分原因。


1

除了已经发布的答案(对我非常有帮助!)之外,还有关于L2范数和均值之间联系的几何解释。

使用与chefwen相同的表示法,L2损失的公式为:

大号2=1个ķ一世=1个ķÿ一世-β2

β大号2ķ

一世=1个ķÿ一世-β2

ÿķÿβ=βββ

βÿββ1个=1个1个1个ÿ1个

ķ=2ÿ=261个44

向量y投射到beta

ķ>2

β=项目1个ÿ=ÿ1个|1个|21个β=一世=1个ķÿ一世ķ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.