2
为什么会有两种不同的逻辑损失表述/符号?
我已经看到两种类型的逻辑损失公式。我们可以轻松地表明它们是相同的,唯一的区别是标签的定义。yyy 公式/符号1,:y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog(p)−(1−y)log(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) 其中p=11+exp(−βTx)p=11+exp(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)},其中逻辑函数将实数\ beta ^ T x映射βŤXβŤX\beta^T x到0.1区间。 公式/符号2,ÿ∈ { − 1 ,+ 1 }ÿ∈{-1个,+1个}y \in \{-1, +1\}: 大号(ÿ,βŤx )= 对数(1 + 经验(- ÿ·&βŤx))大号(ÿ,βŤX)=日志(1个+经验值(-ÿ⋅βŤX)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 选择一种表示法就像选择一种语言一样,使用一种或另一种是有利有弊。这两种表示法的优缺点是什么? 我试图回答这个问题的尝试是,统计学界似乎喜欢第一种表示法,而计算机科学界似乎喜欢第二种表示法。 第一种表示法可以用术语“概率”来解释,因为逻辑函数将实数βŤXβŤX\beta^Tx为0.1区间。 第二种表示法更简洁,可以更轻松地与铰链损失或0-1损失进行比较。 我对吗?还有其他见解吗?