哪个损失函数对逻辑回归是正确的？

31

我读到了两个用于逻辑回归的损失函数版本，其中哪个是正确的，为什么？

来自机器学习的 Zhou ZH（中文），其中： $\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b$

$\begin{matrix} (1) & l (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} x_{i} + \ln (1 + e^{β^{T} x_{i}})) \end{matrix}$ $l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1$
从我的大学课程中，： $z_i = y_if(x_i)=y_i(w^Tx_i + b)$

$\begin{matrix} (2) & L (z_{i}) = \log (1 + e^{- z_{i}}) \end{matrix}$ $L(z_i)=\log(1+e^{-z_i}) \tag 2$

我知道第一个是所有样本的累加，第二个是单个样本的累加，但是我对两个损失函数形式的差异感到更加好奇。不知何故，我觉得它们是等效的。

logistic loss-functions

— tt
source

31

关系如下： $l(\beta) = \sum_i L(z_i)$ 。

将逻辑函数定义为 $f(z) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1+e^{-z}}$ 。它们具有 $f(-z) = 1-f(z)$ 。换句话说：

\frac{1}{1 + e^{z}} = \frac{e^{- z}}{1 + e^{- z}} .

$\frac{1}{1+e^{z}} = \frac{e^{-z}}{1+e^{-z}}.$

如果您采取双方的对立，则以您得到的日志为准：

\ln (1 + e^{z}) = \ln (1 + e^{- z}) + z .

$\ln(1+e^{z}) = \ln(1+e^{-z}) + z.$

从两侧减去 $z$ ，您应该看到：

- y_{i} β^{T} x_{i} + l n (1 + e^{y_{i} β^{T} x_{i}}) = L (z_{i}) .

$-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i}) = L(z_i).$

编辑：

目前，我正在重新阅读此答案，并对如何使等于。最初的问题也许有错别字。 $-y_i\beta^Tx_i+ln(1+e^{\beta^Tx_i})$ $-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i})$

编辑2：

在原始问题中没有错字的情况下，@ ManelMorales似乎是正确的，以引起人们注意以下事实：当 -1,1，概率质量函数可以写为由于的特性，。我在这里用另一种方式重写它，因为他在符号上引入了新的模棱两可。其余的方法是对每个编码取负对数似然率。有关更多详细信息，请参见下面的答案。 $y \in \{-1,1\}$ $P(Y_i=y_i) = f(y_i\beta^Tx_i)$ $f(-z) = 1 - f(z)$ $z_i$ $y$

— 泰勒
source

42

OP错误地认为这两个函数之间的关系是由于样本数（即单个样本与全部样本）引起的。但是，实际的区别只是我们选择培训标签的方式。

在二进制分类的情况下，我们可以分配标签或。 $y=\pm1$ $y=0,1$

如前所述，逻辑函数具有概率形式，即和为。如果我们选择标签我们可以分配 $\sigma(z)$ $\sigma(-z)=1-\sigma(z)$ $\sigma(z)\in (0,1)$ $z\rightarrow \pm \infty$ $y=0,1$

\begin{aligned} P (y = 1 | z) & = σ (z) = \frac{1}{1 + e^{- z}} \\ P (y = 0 | z) & = 1 - σ (z) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{equation} \begin{aligned} \mathbb{P}(y=1|z) & =\sigma(z)=\frac{1}{1+e^{-z}}\\ \mathbb{P}(y=0|z) & =1-\sigma(z)=\frac{1}{1+e^{z}}\\ \end{aligned} \end{equation}$

可以更紧凑地写为。 $\mathbb{P}(y|z) =\sigma(z)^y(1-\sigma(z))^{1-y}$

最大化对数似然率比较容易。最大化对数可能性与最小化负对数可能性相同。对于样本，在采用自然对数并进行了一些简化之后，我们将得出： $m$ $\{x_i,y_i\}$

\begin{aligned} l (z) = - \log (\prod_{i}^{m} P (y_{i} | z_{i})) = - \sum_{i}^{m} \log (P (y_{i} | z_{i})) = \sum_{i}^{m} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \end{aligned}

$\begin{equation} \begin{aligned} l(z)=-\log\big(\prod_i^m\mathbb{P}(y_i|z_i)\big)=-\sum_i^m\log\big(\mathbb{P}(y_i|z_i)\big)=\sum_i^m-y_iz_i+\log(1+e^{z_i}) \end{aligned} \end{equation}$

可以在此jupyter笔记本上找到完整的推导和其他信息。另一方面，我们可能改为使用标签。显然，我们可以分配 $y=\pm 1$

P (y | z) = σ (y z) .

$\begin{equation} \mathbb{P}(y|z)=\sigma(yz). \end{equation}$

也很明显。遵循与之前相同的步骤，在这种情况下，我们将损失函数最小化 $\mathbb{P}(y=0|z)=\mathbb{P}(y=-1|z)=\sigma(-z)$

\begin{aligned} L (z) = - \log (\prod_{j}^{m} P (y_{j} | z_{j})) = - \sum_{j}^{m} \log (P (y_{j} | z_{j})) = \sum_{j}^{m} \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} L(z)=-\log\big(\prod_j^m\mathbb{P}(y_j|z_j)\big)=-\sum_j^m\log\big(\mathbb{P}(y_j|z_j)\big)=\sum_j^m\log(1+e^{-yz_j}) \end{aligned} \end{equation}$

在我们采取由负号引起的倒数之后的最后一步。虽然我们不应该将这两种形式等同起来，但是鉴于每种形式具有不同的值，但是这两种是等效的： $y$

\begin{aligned} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \equiv \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} -y_iz_i+\log(1+e^{z_i})\equiv \log(1+e^{-yz_j}) \end{aligned} \end{equation}$

的情况很容易显示。如果，则左侧的，右侧的。 $y_i=1$ $y_i \neq 1$ $y_i=0$ $y_i=-1$

虽然可能有一些基本原因可以说明为什么我们有两种不同的形式（请参阅为什么有两种不同的逻辑损失公式/符号？），但选择前者的一个原因是出于实际考虑。在前者中，我们可以使用属性来计算和，这两项都是收敛分析所必需的（即，通过计算Hessian确定损失函数的凸性）。 $\partial \sigma(z) / \partial z=\sigma(z)(1-\sigma(z))$ $\nabla l(z)$ $\nabla^2l(z)$

— 曼努埃尔·莫拉莱斯（Manuel Morales）
source

逻辑损失函数是凸的吗？

— user85361

2

Log reg是凸的，但不是 -convex。因此，我们无法限制梯度下降收敛所需的时间。我们可以通过添加正则项来调整的形式以使其强凸：使用正常数将我们的新函数定义为 st是强凸的，我们现在可以证明的收敛边界。不幸的是，我们现在正在最小化其他功能！幸运的是，我们可以证明正则化函数的最优值接近于原始函数的最优值。

l (z)

$l(z)$

α

$\alpha$

l

$l$

λ

$\lambda$

l^{'} (z) = l (z) + λ ‖ z ‖^{2}

$l'(z)=l(z)+\lambda\|z\|^2$

l^{'} (z)

$l'(z)$

λ

$\lambda$

l^{'}

$l'$

— Manuel Morales

您所指的笔记本已经走了，我得到了另一个证明：statlect.com/fundamentals-of-statistics / ...

— Domi.Zhang

2

我发现这是最有用的答案。

— mohit6up

@ManuelMorales您是否链接到正则化函数的最佳值接近原始值？

— 马克

19

我学习了逻辑回归的损失函数，如下所示。

逻辑回归执行二进制分类，因此标签输出为二进制，0或1。令为给定输入特征向量二进制输出为1 的概率。系数是算法尝试学习的权重。 $P(y=1|x)$ $y$ $x$ $w$

P (y = 1 | x) = \frac{1}{1 + e^{- w^{T} x}}

$P(y=1|x) = \frac{1}{1 + e^{-w^{T}x}}$

因为逻辑回归是二元回归的，所以概率只是1减去上述项。 $P(y=0|x)$

P (y = 0 | x) = 1 - \frac{1}{1 + e^{- w^{T} x}}

$P(y=0|x) = 1- \frac{1}{1 + e^{-w^{T}x}}$

损失函数是一个训练示例的（A）输出乘以和（B）输出乘以的总和超过训练示例。 $J(w)$ $y=1$ $P(y=1)$ $y=0$ $P(y=0)$ $m$

J (w) = \sum_{i = 1}^{m} y^{(i)} \log P (y = 1) + (1 - y^{(i)}) \log P (y = 0)

$J(w) = \sum_{i=1}^{m} y^{(i)} \log P(y=1) + (1 - y^{(i)}) \log P(y=0)$

其中表示训练数据中的标签。如果训练实例的标签为，则，将左求和保留在原位置，而将右求和的变为。另一方面，如果训练实例的，则保留带有项的右加数，而左加数变为。对数概率用于简化计算。 $y^{(i)}$ $i^{th}$ $1$ $y^{(i)}=1$ $1-y^{(i)}$ $0$ $y=0$ $1-y^{(i)}$ $0$

如果然后用较早的表达式替换和，则得到： $P(y=1)$ $P(y=0)$

J （ w ） = \sum_{一世 = 1个}^{米} ÿ^{（ 一世 ）} 日志 （ \frac{1个}{1个 + Ë^{- w^{Ť} X}} ） + （ 1个 - ÿ^{（ 一世 ）} ） 日志 （ 1个 - \frac{1个}{1个 + Ë^{- w^{Ť} X}} ）

$J(w) = \sum_{i=1}^{m} y^{(i)} \log \left(\frac{1}{1 + e^{-w^{T}x}}\right) + (1 - y^{(i)}) \log \left(1- \frac{1}{1 + e^{-w^{T}x}}\right)$

您可以在这些斯坦福大学的讲义中阅读有关此表格的更多信息。

— stackoverflowuser2010
source

这个答案在这里也提供了一些相关的观点。

— GeoMatt22

6

您拥有的表达式不是损失（要最小化），而是对数似然（要最大化）。

— xenocyon

2

@xenocyon true-相同的公式通常在负的总和上加上负号。

— Alex Klibisz

1

代替均方误差，我们使用称为交叉熵的成本函数，也称为对数损失。交叉熵损失可分为两个独立的成本函数：一个用于y = 1，一个用于y = 0。

\begin{aligned} j (θ ） & = \frac{1个}{米} \sum_{一世 = 1个}^{米} C Ø s Ť （ H_{θ} （ X^{（ 一世 ）} ） ， ÿ^{（ 一世 ）} ） \\ C Ø s Ť （ H_{θ} （ X ） ， ÿ ） & = - 日志 （ H_{θ} （ X ） ） & 一世 F ÿ & = 1个 \\ C Ø s Ť （ H_{θ} （ X ） ， ÿ ） & = - 日志 （ 1个 - H_{θ} （ X ） ） & 一世 F ÿ & = 0 \end{aligned}

$\begin{align}\newcommand{\Cost}{{\rm Cost}}\newcommand{\if}{{\rm if}} j(\theta) &= \frac 1 m \sum_{i=1}^m \Cost(h_\theta(x^{(i)}), y^{(i)}) & & \\ \Cost(h_\theta(x), y) &= -\log(h_\theta(x)) & \if\ y &= 1 \\ \Cost(h_\theta(x), y) &= -\log(1-h_\theta(x)) & \if\ y &= 0 \end{align}$

当我们将它们放在一起时，我们有：

Ĵ （ θ ） = \frac{1个}{米} \sum_{一世 = 1个}^{米} [ÿ^{（ 一世 ）} 日志 （ H_{θ} （ X^{（ 一世 ）} ） ） + （ 1个 - ÿ^{（ 一世 ）} ） 日志 （ 1个 - H_{θ} （ X ）^{（ 一世 ）} ）]

$j(\theta) = \frac 1 m \sum_{i=1}^m \big[y^{(i)}\log(h_\theta(x^{(i)})) + (1-y^{(i)})\log(1-h_\theta(x)^{(i)}) \big]$

上式中的和乘以一个狡猾的把戏，让我们使用相同的方程式来求解和情况。如果，则第一侧抵消。如果，则第二侧抵消。在这两种情况下，我们仅执行需要执行的操作。 $y$ $(1−y)$ $y=1$ $y=0$ $y=0$ $y=1$

如果您不想使用for循环，可以尝试上述方程式的矢量化形式

\begin{aligned} h & = g (X θ) \\ J (θ) & = \frac{1}{m} \cdot (- y^{T} \log (h) - (1 - y)^{T} \log (1 - h)) \end{aligned}

$\begin{align} h &= g(X\theta) \\ J(\theta) &= \frac 1 m \cdot \big(-y^T\log(h)-(1-y)^T\log(1-h)\big) \end{align}$

整个解释可以在Machine Learning Cheatsheet上查看。

— 伊曼纽尔·丰特莱斯（Emanuel Fontelles）
source