L1回归估计值是中位数，而L2回归估计值是什么意思？

24

因此，有人问我一个问题，即估计哪些中央度量L1（即套索）和L2（即岭回归）。答案是L1 =中位数，L2 =平均值。是否有任何类型的直观推理？还是必须通过代数确定？如果是这样，我该怎么做？

— Bstat
source

4

通过L1 / L2，您是指目标函数还是约束？如果是目标函数，则使用条件中位数将L1误差最小化，将条件均值L2误差最小化。如果存在约束（ridge / lasso指的是什么），那么这是错误的思考方式。他们的“中央措施”仍以有条件均值为目标，但对处罚不同。

β

$\beta$

— muratoa

24

对于为什么L1损失函数会产生中值，有一个简单的几何解释。

回想一下，我们在一个维度上工作，因此，想象一条数字线水平分布。在数字线上标出每个数据点。将手指放在线上的某个位置；您的手指将是您当前的候选估算。

假设您将手指向右移动一点，例如向右说单位。总损失会怎样？好吧，如果你的手指是两个数据点之间，并且您在一个数据点移动它，你已经通过增加总损耗为每个数据点到离开你的手指，并减少它由为每个数据指向手指的右侧。因此，如果手指右边的数据点多于左边的数据点，那么将手指向右移动会减少总损耗。换句话说，如果一半以上的数据点位于手指的右侧，则应将手指向右移动。 $\delta$ $\delta$ $\delta$

这会导致您将手指移向某个点，其中一半的数据点在该点上，另一半在右边。该点是中位数。

那就是L1和中位数。不幸的是，对于L2和均值，我没有类似的“全部直觉，没有代数”的解释。

— DW
source

7

如果我们在谈论一个简单的点估计，那么它就是简单的演算。

\frac{d}{d β} \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β)^{2} = - 2 \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β) = 0 \Rightarrow β = \frac{1}{n} \sum_{i} y_{i}

$\frac{d}{d \beta} \frac{1}{n}\sum_{i=1}^n (y_i - \beta)^2 = -2\frac{1}{n}\sum_{i=1}^n(y_i - \beta) = 0 \Rightarrow \beta = \frac{1}{n}\sum_i y_i$

— muratoa

3

@muratoa，是的，我知道微积分的推导，但是这个问题专门要求给出一个关于直觉并避免代数的解释。我假设提问者已经知道微积分的推导，但是正在寻找可以提供更多直觉的东西。

— DW 2012年

我认为OP提到了回归，这表明他在谈论给定x的y的估计值，x是使用最小二乘法的条件均值和均值绝对误差的条件中值。相同的解释应该起作用，但问题有所不同。均值的演算解释非常清楚和直接。也许可以用与DW中位数相似的方式给出均值的解释。样本均值是总体均值的无偏估计。

— Michael R. Chernick

当您将估计值从样本移开时，均方误差会由于偏差的增加而变化。当估计将d作为候选估计值加到样本均值时，均方误差实际上会增加d

。

^{2}

$^2$

— Michael R. Chernick

11

对于L1情形，存在由muratoa给出的代数的快速且肮脏的版本。观察到，除了当

，

的导数。

WRT

是

，即

如果

和

如果

。所以

β = y_{i}

$\beta = y_i$

| y_{i} - β |

$| y_i -\beta |$

β

$\beta$

- s g n (y_{i} - β)

$-\mathrm{sgn}(y_i-\beta)$

- 1

$-1$

β < y_{i}

$\beta < y_i$

+ 1

$+1$

β > y_{i}

$\beta > y_i$

，当

是

时除外。当

存在相同数量的正项和负项时，导数就消失了，大致而言，当

是

的中位数时，导数消失。

\frac{d}{d β} \frac{1}{n} \sum_{i} | y_{i} - β | = - \frac{1}{n} \sum_{i} s g n (y_{i} - β)

$\frac{\mathrm{d}}{\mathrm{d}\beta} \,\frac{1}{n}\sum_i | y_i -\beta | = -\frac{1}{n}\,\sum_i \mathrm{sgn}(y_i-\beta)$

β

$\beta$

y_{i}

$y_i$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

— 伊夫2012年

17

该解释是对muratoa和Yves对DW答案的评论的总结。尽管它基于演算，但我发现它简单易懂。

假设我们已经并想要基于它们得出一个新的估计值。当我们找到使损失的导数为零的，获得的损失最小。 $y_1, y_2, ... y_k$ $\beta$ $\beta$

L1损失

大号 1个 = \frac{1个}{ķ} \sum_{一世 = 1个}^{ķ} | ÿ_{一世} - β |

$L1=\frac{1}{k}\sum_{i=1}^k|y_i-\beta|$

当

时为1，当

时为-1。当

之间存在相同数量的正负项时，导数等于0，这意味着

应该是

的中值。

\frac{\partial {大号}_{1个}}{\partial β} = - \frac{1个}{ķ} \sum_{一世 = 1个}^{ķ} s G ñ （ ÿ_{一世} - β ）

$\frac{\partial L_1}{\partial\beta}=-\frac{1}{k}\sum_{i=1}^k sgn(y_i-\beta)$

s g n (y_{i} - β)

$sgn(y_i-\beta)$

y_{i} > β

$y_i>\beta$

y_{i} < β

$y_i<\beta$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

L2损失

大号 2 = \frac{1个}{ķ} \sum_{一世 = 1个}^{ķ} （ ÿ_{一世} - β ）^{2}

$L2=\frac{1}{k}\sum_{i=1}^k(y_i-\beta)^2$

\frac{\partial {大号}_{2}}{\partial β} = - \frac{2}{ķ} \sum_{一世 = 1个}^{ķ} （ ÿ_{一世} - β ）

$\frac{\partial L_2}{\partial\beta}=-\frac{2}{k}\sum_{i=1}^k(y_i-\beta)$

因此，为了使L2损失最小，

应该是

的平均值。

\frac{\partial {大号}_{2}}{\partial β} = 0 \to β = \frac{1个}{ķ} \sum_{一世 = 1个}^{ķ} ÿ_{一世}

$\frac{\partial L_2}{\partial\beta}=0\rightarrow\beta=\frac{1}{k}\sum_{i=1}^k y_i$

β

$\beta$

y_{i}

$y_i$

— 舍夫文
source

3

通过一个更实际的示例（也适用于L2损失函数）为DW的答案添加：

想象一下一个由4栋彼此靠近（例如10米）的房屋组成的小村庄。在距离这些商店1公里的地方，您还有另一间非常孤立的房子。现在，您到达那个城镇，想要在某个地方建造自己的房子。您想住在其他房屋附近并与所有人成为朋友。考虑这两种替代方案：

您决定在到任何房屋的平均距离最小的位置（即最小化L1损失函数）。
- 如果您将房屋放置在村庄的中心，则距4所房屋约10米，距一所房屋1公里，平均距离约为200米（10 + 10 + 10 + 10 + 1000 / 5）。
- 如果您将房屋放置在距离村庄500米的位置，那么您将与5座房屋相距500米左右，因此平均距离为500米。
- 如果您将房屋放置在隔离的房屋旁边，则您将与村庄（4所房屋）相距1公里，而与1所房屋相距10米，则平均距离约为800米。
因此，通过在村子里建房子可以达到100米的最低平均距离。更具体地说，您将在这4栋房屋的中间建造房屋，以获得平均几米的距离。事实证明，此点是“ 中位数点 ”，您可以使用中位数公式类似地获得该点。
您决定采取民主方式。您要求五个未来邻居中的每个邻居为您的新房子提供首选位置。他们都喜欢您，并希望您与他们住在一起。因此，他们都说自己的首选位置是他们自己房屋旁边的位置。您将五个邻居的所有投票位置的平均值作为平均值，结果是“距离村庄200米”（投票的平均值：0 + 0 + 0 + 0 + 1000/5 = 200）使用均值公式可以类似地获得5栋房屋的“ 均值 ”。而且，该位置与最小化平方距离之和（即L2损失函数）的位置完全相同。让我们做一下数学看看：
- 在此位置，平方距离的总和是：200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
- 如果我们在村庄中心建造房屋，则平方距离的总和将为：0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
- 如果我们在距离村庄100米的地方建造房屋（如1），平方距离的总和是：100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
- 如果我们在离孤立房屋100米的地方建造房屋，则平方距离的总和为：900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3250 000

因此，是的，有趣的是，当我们最小化距离的总和时，有点反直觉，我们不会在平均值的意义上最终处于“中间”，而在意义上中位数。这是最流行的回归模型之一OLS使用平方误差而不是绝对误差的部分原因。

— 乔纳森·齐默尔曼（Jonathan Zimmermann）
source

1

除了已经发布的答案（对我非常有帮助！）之外，还有关于L2范数和均值之间联系的几何解释。

使用与chefwen相同的表示法，L2损失的公式为：

大号 2 = \frac{1个}{ķ} \sum_{一世 = 1个}^{ķ} （ ÿ_{一世} - β ）^{2}

$L2 = \frac{1}{k} \sum^{k}_{i=1} (y_i - \beta)^2$

$\beta$ $L2$ $k$

\sqrt{\sum_{一世 = 1个}^{ķ} （ ÿ_{一世} - β ）^{2}}

$\sqrt { \sum^{k}_{i=1} (y_i - \beta)^2 }$

$y$ $k$ $y$ $\vec{\beta} = (\beta, \beta, ..., \beta)$

$\beta$ $y$ $\vec{\beta}$ $\vec{\beta}$ $\vec{1} = (1, 1, ..., 1)$ $y$ $\vec{1}$

$k = 2$ $y = (2, 6)$ $\vec{1}$ $(4, 4)$

$k > 2$

\begin{aligned} \vec{β} & = {项目}_{\vec{1个}} ÿ \\ = \frac{ÿ \cdot \vec{1个}}{| \vec{1个} |^{2}} \vec{1个} \\ β & = \frac{\sum_{一世 = 1个}^{ķ} ÿ_{一世}}{ķ} \end{aligned}

$\begin{alignat}{2} \vec{\beta} &= \operatorname{proj}_{\vec{1}}{y} \\ &= \frac{y \cdot \vec{1}}{|\vec{1}|^2}\vec{1} \\ \beta &= \frac{\sum^k_{i=1} y_i}{k} \end{alignat}$

— 保罗
source