为什么会有两种不同的逻辑损失表述/符号？

我已经看到两种类型的逻辑损失公式。我们可以轻松地表明它们是相同的，唯一的区别是标签的定义。 $y$

公式/符号1，： $y \in \{0, +1\}$

L (y, β^{T} x) = - y \log (p) - (1 - y) \log (1 - p)

$L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p)$

其中 $p=\frac 1 {1+\exp(-\beta^Tx)}$ ，其中逻辑函数将实数映射 $\beta^T x$ 到0.1区间。

公式/符号2， $y \in \{-1, +1\}$ ：

大号 （ ÿ ， β^{Ť} X ） = 日志 （ 1个 + 经验值 （ - ÿ \cdot β^{Ť} X ） ）

$L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx}))$

选择一种表示法就像选择一种语言一样，使用一种或另一种是有利有弊。这两种表示法的优缺点是什么？

我试图回答这个问题的尝试是，统计学界似乎喜欢第一种表示法，而计算机科学界似乎喜欢第二种表示法。

第一种表示法可以用术语“概率”来解释，因为逻辑函数将实数 $\beta^Tx$ 为0.1区间。
第二种表示法更简洁，可以更轻松地与铰链损失或0-1损失进行比较。

我对吗？还有其他见解吗？

— 海涛都
source

我确信这一定已经被问过多次了。如stats.stackexchange.com/q/145147/5739

— StasK

为什么您说第二种表示法更容易与铰链损失进行比较？仅仅是因为它是在而不是或其他上定义的？

{- 1, 1}

$\{-1, 1\}$

{0, 1}

$\{0, 1\}$

— shadowtalker's

我有点喜欢第一种形式的对称性，但是线性部分埋得很深，因此可能很难使用。

— 马修·德鲁里

@ssdecontrol请检查此图cs.cmu.edu/~yandongl/loss.html其中x轴是，y轴是损耗值。这样的定义是方便，01损耗，铰链损耗等比较

- y \cdot β^{T} x

$-y\cdot \beta^Tx$

— 杜海涛

Answers:

短版

长版

数学建模的好处是它很灵活。这些确实是等效的损失函数，但是它们源自数据的非常不同的基础模型。

公式1

从所述第一符号导出伯努利概率模型对，这是在常规定义。在此模型中，结果/标签/类别/预测由遵循分布的随机变量表示。因此，它的可能性为： $y$ $\{0, 1\}$ $Y$ $\mathrm{Bernoulli}(p)$

P (Y = y | p) = L (p; y) = p^{y} (1 - p)^{1 - y} = {\begin{cases} 1 - p & y = 0 \\ p & y = 1 \end{cases}

$P(Y = y\ |\ p) = \mathcal L(p; y) = p^y\ (1-p)^{1-y} = \begin{cases}1-p &y=0 \\ p &y=1 \end{cases}$

对于。使用0和1作为指标值，我们可以将最右边的分段函数简化为简洁的表达式。 $p\in[0, 1]$

如您所指出的，然后可以通过让，将链接到输入数据的矩阵。从这里开始，简单的代数运算表明与问题中的第一个（提示：）。因此，使上的对数损失最小化等效于Bernoulli模型的最大似然估计。 $Y$ $x$ $\operatorname{logit} p = \beta^T x$ $\log \mathcal L(p;y)$ $L(y, \beta^Tx)$ $(y - 1) = - (1 - y)$ $\{0, 1\}$

该公式也是广义线性模型的一种特殊情况，对于可逆的可微函数和函数中的分布，公式为指数族。 $Y \sim D(\theta),\ g(Y) = \beta^T x$ $g$ $D$

公式2

实际上。我不熟悉公式2。但是，在支持向量机的公式中在上定义是标准的。拟合SVM对应于最大化 $y$ $\{-1, 1\}$

最高 （ {0 ， 1个 - ÿ β^{Ť} X} ） + λ ‖ β ‖^{2} 。

$\max \left(\{0, 1 - y \beta^T x \}\right) + \lambda \|\beta\|^2.$

这是约束优化问题的拉格朗日形式。它也是目标函数的正则化优化问题的一个示例对于某些损失函数和控制正则化量的标量超参数（也称为“收缩”）应用于。铰链损耗只是的几种下降可能性之一，其中还包括问题中的第二个。

ℓ （ ÿ ， β ） + λ ‖ β ‖^{2}

$\ell(y, \beta) + \lambda \|\beta\|^2$

ℓ

$\ell$

λ

$\lambda$

β

$\beta$

ℓ

$\ell$

L (y, β^{T} x)

$L(y, \beta^Tx)$

— 暗语者
source

在公式1中，它应该不是：

p^{ÿ} （ 1个 - p ）^{1个 - ÿ 1个 - ÿ}

$p^y(1 - p)^{\pmb{1 - y}}$

— glebm

我认为@ssdecontrol有一个很好的答案。我只想为自己的问题为公式2添加一些注释。

大号 （ ÿ ， \hat{ÿ} ） = 日志 （ 1个 + 经验值 （ - ÿ \cdot \hat{ÿ} ） ）

$L(y,\hat y)=\log(1+\exp{(-y\cdot \hat y}))$

人们之所以喜欢这种表述，是因为它非常简洁，并且删除了“概率解释细节”。

棘手的表示法是，请注意，是二进制变量，但是这里的是实数。与公式1相比，我们需要两个额外的步骤使其成为离散标签，即步骤1。sigmod函数的步骤2。应用0.5阈值。 $\hat y$ $y$ $\hat y$

但是，如果没有这些详细信息，我们就可以轻松地将其与其他分类损失（例如01损失或铰链损失）进行比较。

{大号}_{01} （ ÿ ， \hat{ÿ} ） = 一世 [ÿ \cdot \hat{ÿ} > 0] {大号}_{合页} （ ÿ ， \hat{ÿ} ） = （ 1个 - ÿ \cdot \hat{ÿ} ）_{+} {大号}_{后勤} （ ÿ ， \hat{ÿ} ） = 日志 （ 1个 + 经验值 （ - ÿ \cdot \hat{ÿ} ） ）

$L_{01}(y,\hat y)=I[y \cdot \hat y >0]\\ L_{\text{hinge}}(y,\hat y)=(1-y \cdot \hat y)_+\\ L_{\text{logistic}}(y,\hat y)=\log(1+\exp(-y \cdot \hat y))$

这里我们绘制了三个损失函数，x轴是，y轴是损失值。注意，在所有上述公式中，是一个实数，并且该数字可以来自线性形式或其他形式。这种表示法隐藏了概率细节。 $y \cdot \hat y$ $\hat y$ $\beta^Tx$

— 海涛都
source

我明白您对轻松进行比较的意思

— Shadowtalker，2016年