分位数回归：损失函数

24

我试图理解分位数回归，但是让我受苦的一件事是损失函数的选择。

$\rho_\tau(u) = u(\tau-1_{\{u<0\}})$

我知道的期望最小值等于位数，但是从此功能开始的直观原因是什么？我看不到最小化此功能与分位数之间的关系。有人可以向我解释吗？ $\rho_\tau(y-u)$ $\tau\%$

quantiles loss-functions quantile-regression

— CDO
source

28

我理解这个问题是为了寻求对如何将产生给定分位数的任何损失函数作为损失最小化器进行深入了解的能力，而不管潜在的分布是什么。 因此，仅仅在Wikipedia或其他地方重复分析就可以证明这种特殊的损失函数是有效的。

让我们从熟悉和简单的事情开始。

您正在谈论的是找到相对于数据的分布或集合的“位置”。例如，众所周知，平均值使期望的平方余数最小化；也就是说，这是一个 $x^{*}$ $F$ $\bar x$

{大号}_{F} （ \bar{X} ） = \int_{[R} （ X - \bar{X} ）^{2} d F （ X ）

$\mathcal{L}_F(\bar x)=\int_{\mathbb{R}} (x - \bar x)^2 dF(x)$

尽可能小。我用这个符号来提醒我们是从损失中得出的，它由确定，但最重要的是，它取决于数字。 $\mathcal{L}$ $F$ $\bar x$

显示最小化任何函数的标准方法始于表明，当稍作更改时，函数的值不会减小。这样的值称为函数的临界点。 $x^{*}$ $x^{*}$

哪种损失函数将导致百分位数是临界点？该价值的损失将是 $\Lambda$ $F^{-1}(\alpha)$

{大号}_{F} （ F^{- 1个} （ α ） ） = \int_{[R} Λ （ X - F^{- 1个} （ α ） ） d F （ X ） = \int_{0}^{1个} Λ （ F^{- 1个} （ ü ） - F^{- 1个} （ α ） ） d ü 。

$\mathcal{L}_F(F^{-1}(\alpha)) = \int_{\mathbb{R}} \Lambda(x-F^{-1}(\alpha))dF(x)=\int_0^1\Lambda\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.$

为了使其成为临界点，其导数必须为零。因为我们只是试图找到一些解决方案，我们不会停下来看看操作是否是合法的：我们将计划检查技术细节（比如是否我们真的能够区分，等等）结尾。从而 $\Lambda$

\begin{matrix} (1) & \begin{aligned} 0 & = L_{F}^{'} (x^{*}) = L_{F}^{'} (F^{- 1} (α)) = - \int_{0}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u \\ = - \int_{0}^{α} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u - \int_{α}^{1} Λ^{'} (F^{- 1} (u) - F^{- 1} (α)) d u . \end{aligned} \end{matrix}

$\eqalign{0 &=\mathcal{L}_F^\prime(x^{*})= \mathcal{L}_F^\prime(F^{-1}(\alpha))= -\int_0^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du \\ &= -\int_0^{\alpha} \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du -\int_{\alpha}^1 \Lambda^\prime\left(F^{-1}(u)-F^{-1}(\alpha)\right)du.\tag{1} }$

在左侧，的参数为负，而在右侧为正。除此之外，我们对这些积分的值几乎没有控制权，因为可以是任何分布函数。 因此，我们唯一的希望是使仅取决于其参数的符号，否则它必须是恒定的。 $\Lambda$ $F$ $\Lambda^\prime$

这意味着将是分段线性的，潜在具有零权不同斜率的左侧和。显然，随着接近零，它应该减少-毕竟是损失而不是收益。而且，将缩放为常数不会改变其属性，因此我们可以随意将左斜率设置为。令为右斜率。然后简化为 $\Lambda$ $\Lambda$ $-1$ $\tau \gt 0$ $(1)$

0 = α - τ (1 - α),

$0 = \alpha - \tau (1 - \alpha),$

那里的独特的解决方案是，由正倍数，

Λ (x) = {\begin{cases} - x, x \leq 0 \\ \frac{α}{1 - α} x, x \geq 0. \end{cases}

$\Lambda(x) = \cases{-x, \ x \le 0 \\ \frac{\alpha}{1-\alpha}x, \ x \ge 0.}$

将此（自然）解乘以即可清除分母，从而产生问题中提出的损失函数。 $1-\alpha$

当具有这种形式时，显然我们所有的操作在数学上都是合法的。 $\Lambda$

— ub
source

19

损失函数的表达方式很好且紧凑，但我认为将其重写为更容易理解

ρ_{τ} （ X - 米 ） = （ X - 米 ） （ τ - {1个}_{（ X - 米 < 0 ）} ） = {\begin{cases} τ | X - 米 | & 一世 F X - 米 \geq 0 \\ （ 1个 - τ ） | X - 米 | & 一世 F X - 米 < 0 ） \end{cases}

$\rho_\tau(X-m) = (X-m)(\tau-1_{(X-m<0)}) = \begin{cases} \tau |X-m| & if \; X-m \ge 0 \\ (1 - \tau) |X-m| & if \; X-m < 0) \end{cases}$

如果您想直观地了解为什么最小化此损失函数会产生 th分位数，请考虑一个简单的示例。令为0到1之间的统一随机变量。我们还为选择一个具体值，例如。 $\tau$ $X$ $\tau$ $0.25$

所以现在的问题是，为什么在将这个损失函数最小化？显然，右边的均匀分布的质量是左边的三倍。损失函数仅对小于此值的权重的三分之一权重大于此数字的值。因此，将 th分位数用作损失函数的拐点时，比例是平衡的，这是很直观的。 $m=0.25$ $m$ $\tau$

— 捷捷
source

1

不应该这样吗？猜测不足会花费三倍吗？

— Edi Bice

感谢您抓住这一点。该公式是正确的，但我最初在解释中措词不正确。

— jjet