Logistic回归的成本函数如何推导

29

我正在Coursera上学习斯坦福大学的机器学习课程。

在关于逻辑回归的章节中，成本函数是这样的：

然后，它在这里派生：

我尝试获取成本函数的导数，但是却得到了完全不同的东西。

如何获得导数？

中间步骤是什么？

— 屋大维
source

+1，在我的问题中检查@AdamO的答案。stats.stackexchange.com/questions/229014/...

— 杜海涛

除了告诉您您已经知道的内容（正确的梯度）之外，“完全不同”还不足以回答您的问题。如果您将计算的结果告诉我们，这将大有用处，那么我们可以帮助您提高出错的地方。

— 马修·德鲁里

@MatthewDrury抱歉，Matt，在您发表评论之前，我已经安排好了答案。Octavian，您是否遵循所有步骤？我将在稍后进行编辑以为其提供一些附加值……

— 安东尼·帕雷拉达

2

当您说“衍生”时，您是指“区分”还是“衍生”？

— Glen_b-恢复莫妮卡

41

改编自课程中的笔记，我在Andrew Ng的Coursera机器学习课程页面中的学生贡献的笔记之外，看不到可用的笔记（包括此衍生词）。

在下文中，上标表示单独的度量或培训“示例”。 $(i)$

$\small \frac{\partial J(\theta)}{\partial \theta_j} = \frac{\partial}{\partial \theta_j} \,\frac{-1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right] \\[2ex]\small\underset{\text{linearity}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\partial}{\partial \theta_j}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\frac{\partial}{\partial \theta_j}\log\left(1-h_\theta \left(x^{(i)}\right)\right) \right] \\[2ex]\Tiny\underset{\text{chain rule}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}h_\theta \left(x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-h_\theta \left(x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{h_\theta(x)=\sigma\left(\theta^\top x\right)}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}\sigma\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\Tiny\underset{\sigma'}=\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\, \frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\,\frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\sigma\left(\theta^\top x\right)=h_\theta(x)}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left( x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left(x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left( \theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)=x_j^{(i)}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}\left(1-h_\theta\left(x^{(i)}\right)\right)x_j^{(i)}- \left(1-y^{i}\right)\,h_\theta\left(x^{(i)}\right)x_j^{(i)} \right] \\[2ex]\small\underset{\text{distribute}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{i}-y^{i}h_\theta\left(x^{(i)}\right)- h_\theta\left(x^{(i)}\right)+y^{(i)}h_\theta\left(x^{(i)}\right) \right]\,x_j^{(i)} \\[2ex]\small\underset{\text{cancel}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}-h_\theta\left(x^{(i)}\right)\right]\,x_j^{(i)} \\[2ex]\small=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

S型函数的导数为

$\Tiny\begin{align}\frac{d}{dx}\sigma(x)&=\frac{d}{dx}\left(\frac{1}{1+e^{-x}}\right)\\[2ex] &=\frac{-(1+e^{-x})'}{(1+e^{-x})^2}\\[2ex] &=\frac{e^{-x}}{(1+e^{-x})^2}\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\left(\frac{e^{-x}}{1+e^{-x}}\right)\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\frac{1}{1+e^{-x}}\right)\\[2ex] &=\sigma(x)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\sigma(x)\right)\\[2ex] &=\sigma(x)\,(1-\sigma(x)) \end{align}$

— 安东尼·帕雷拉达（Antoni Parellada）
source

1

为所有工作+1 ！，可能使用矩阵符号会更容易吗？

— 海涛杜

我可以说在线性回归中，目标是，导数是，其中，在逻辑回归中，相似，导数是，其中和？

‖ A x - b ‖^{2}

$\|Ax-b\|^2$

2 A^{T} e

$2A^Te$

e = A x - b

$e=Ax-b$

A^{T} e

$A^Te$

e = p - b

$e=p-b$

p = sigmoid (A x)

$p=\text{sigmoid}~(Ax)$

— 海涛杜

2

这就是为什么我感谢您的努力。您花时间了解我们OP的语言！！

— 海涛杜

1

我的理解是，存在凸点问题，使得非线性激活函数不希望使平方误差最小化。用矩阵表示法是。

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} X^{⊤} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{m}X^\top\left( \sigma(X\theta)-\mathbf y\right)$

— 安东尼·帕雷拉达

1

@MohammedNoureldin我只是应用链式规则，在上一行的分子中取了偏导数。

— 安东尼·帕雷拉达

8

为了避免出现问题的复杂性，让我们只看一下解决方案的结构。

通过简化和一些符号滥用，令是总和，而是的函数： $G(\theta)$ $J(\theta)$ $h = 1/(1+e^{-z})$ $z(\theta)= x \theta$

G = y \cdot \log (h) + (1 - y) \cdot \log (1 - h)

$G = y \cdot \log(h)+(1-y)\cdot \log(1-h)$

我们可以使用链式规则：并通过一个（和是常数）。 $\frac{d G}{d \theta}=\frac{d G}{d h}\frac{d h}{d z}\frac{d z}{d \theta}$ $x$ $y$

\frac{d G}{\partial h} = \frac{y}{h} - \frac{1 - y}{1 - h} = \frac{y - h}{h (1 - h)}

$\frac{d G}{\partial h} = \frac{y} {h} - \frac{1-y}{1-h} = \frac{y - h}{h(1-h)}$ 对于sigmoid成立，仅是前一条语句的分母。

\frac{d h}{d z} = h (1 - h)

$\frac{d h}{d z} = h (1-h)$

最后，。 $\frac{d z}{d \theta} = x$

将所有结果组合在一起就可以得到表达：希望有帮助。

\frac{d G}{d θ} = (y - h) x

$\frac{d G}{d \theta} = (y-h)x$

— 加雷
source

0

这个答案归功于安东尼奥·帕雷拉达（Antoni Parellada）的评论，我认为该评论应该在此页上占据更重要的位置（因为当其他许多答案都没有时，它可以帮助我）。另外，这不是全部推导，而是对的清晰陈述。（有关完整推导，请参见其他答案）。 $\frac{\partial J(\theta)}{\partial \theta}$

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} \cdot X^{T} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta} = \frac{1}{m} \cdot X^T\big(\sigma(X\theta)-y\big)$

哪里

\begin{aligned} X \in R^{m \times n} & = Training example matrix \\ σ (z) & = \frac{1}{1 + e^{- z}} = sigmoid function = logistic function \\ θ \in R^{n} & = weight row vector \\ y & = class/category/label corresponding to rows in X \end{aligned}

$\begin{equation} \begin{aligned} X \in \mathbb{R}^{m\times n} &= \text{Training example matrix} \\ \sigma(z) &= \frac{1}{1+e^{-z}} = \text{sigmoid function} = \text{logistic function} \\ \theta \in \mathbb{R}^{n} &= \text{weight row vector} \\ y &= \text{class/category/label corresponding to rows in X} \end{aligned} \end{equation}$

同样，对于那些想要计算关于的梯度的人来说，这是一个Python实现。 $J$ $\theta$

import numpy
def sig(z):
return 1/(1+np.e**-(z))


def compute_grad(X, y, w):
    """
    Compute gradient of cross entropy function with sigmoidal probabilities

    Args: 
        X (numpy.ndarray): examples. Individuals in rows, features in columns
        y (numpy.ndarray): labels. Vector corresponding to rows in X
        w (numpy.ndarray): weight vector

    Returns: 
        numpy.ndarray 

    """
    m = X.shape[0]
    Z = w.dot(X.T)
    A = sig(Z)
    return  (-1/ m) * (X.T * (A - y)).sum(axis=1)

— 西亚兰·威尔士
source

0

对于我们中那些不擅长微积分但想调整成本函数并需要找到一种方法来计算导数的人来说，重新学习微积分的捷径是该在线工具，可自动提供推导，并逐步解释规则。

https://www.derivative-calculator.net

— 药香
source