为什么会有两种不同的逻辑损失表述/符号?


23

我已经看到两种类型的逻辑损失公式。我们可以轻松地表明它们是相同的,唯一的区别是标签的定义。y

公式/符号1,:y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

其中p=11+exp(βTx),其中逻辑函数将实数\ beta ^ T x映射βŤX到0.1区间。

公式/符号2,ÿ{-1个+1个}

大号ÿβŤX=日志1个+经验值-ÿβŤX

选择一种表示法就像选择一种语言一样,使用一种或另一种是有利有弊。这两种表示法的优缺点是什么?


我试图回答这个问题的尝试是,统计学界似乎喜欢第一种表示法,而计算机科学界似乎喜欢第二种表示法。

  • 第一种表示法可以用术语“概率”来解释,因为逻辑函数将实数βŤX为0.1区间。
  • 第二种表示法更简洁,可以更轻松地与铰链损失或0-1损失进行比较。

我对吗?还有其他见解吗?


4
我确信这一定已经被问过多次了。如stats.stackexchange.com/q/145147/5739
StasK

1
为什么您说第二种表示法更容易与铰链损失进行比较?仅仅是因为它是在而不是或其他上定义的?{ 0 1 }{-1个1个}{01个}
shadowtalker's

1
我有点喜欢第一种形式的对称性,但是线性部分埋得很深,因此可能很难使用。
马修·德鲁里

@ssdecontrol请检查此图cs.cmu.edu/~yandongl/loss.html其中x轴是,y轴是损耗值。这样的定义是方便,01损耗,铰链损耗等比较-ÿβŤX
杜海涛

Answers:


12

短版

长版

数学建模的好处是它很灵活。这些确实是等效的损失函数,但是它们源自数据的非常不同的基础模型。

公式1

从所述第一符号导出伯努利概率模型对,这是在常规定义。在此模型中,结果/标签/类别/预测由遵循分布的随机变量表示。因此,它的可能性为: yÿ Ë ř Ñ Ò ù p P Ý = Ý | p = 大号p ; Ý = p Ý1 - p 1 - Ý = { 1 - p ÿ = 0 p y = 1{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

对于。使用0和1作为指标值,我们可以将最右边的分段函数简化为简洁的表达式。p[0,1]

如您所指出的,然后可以通过让,将链接到输入数据的矩阵。从这里开始,简单的代数运算表明与问题中的第一个(提示:)。因此,使上的对数损失最小化等效于Bernoulli模型的最大似然估计。X 分对数p = β Ť X 登录大号p ; Ý 大号Ý β Ť X Ý - 1 = - 1 - Ý { 0 1 }Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y){0,1}

该公式也是广义线性模型的一种特殊情况,对于可逆的可微函数和函数中的分布,公式为指数族dYD(θ), g(Y)=βTXGd

公式2

实际上。我不熟悉公式2。但是,在支持向量机的公式中在上定义是标准的。拟合SVM对应于最大化 ÿ{-1个1个}

最高{01个-ÿβŤX}+λβ2

这是约束优化问题的拉格朗日形式。它也是目标函数的正则化优化问题的 一个示例 对于某些损失函数和控制正则化量的标量超参数(也称为“收缩”)应用于。铰链损耗只是的几种下降可能性之一,其中还包括问题中的第二个。λ β 大号Ý β Ť X

ÿβ+λβ2
λβ大号ÿβŤX

在公式1中,它应该不是:
pÿ1个-p1个-ÿ1个-ÿ
glebm

7

我认为@ssdecontrol有一个很好的答案。我只想为自己的问题为公式2添加一些注释。

大号ÿÿ^=日志1个+经验值-ÿÿ^

人们之所以喜欢这种表述,是因为它非常简洁,并且删除了“概率解释细节”。

棘手的表示法是,请注意,是二进制变量,但是这里的是实数。与公式1相比,我们需要两个额外的步骤使其成为离散标签,即步骤1。sigmod函数的步骤2。应用0.5阈值。ÿ^ÿÿ^

但是,如果没有这些详细信息,我们就可以轻松地将其与其他分类损失(例​​如01损失或铰链损失)进行比较。

大号01ÿÿ^=一世[ÿÿ^>0]大号合页ÿÿ^=1个-ÿÿ^+大号后勤ÿÿ^=日志1个+经验值-ÿÿ^

在此处输入图片说明

这里我们绘制了三个损失函数,x轴是,y轴是损失值。注意,在所有上述公式中,是一个实数,并且该数字可以来自线性形式或其他形式。这种表示法隐藏了概率细节。ÿÿ^ÿ^βŤX


我明白您对轻松进行比较的意思
Shadowtalker,2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.