统计和大数据 derivative

6

我试图了解反向传播如何用于softmax /交叉熵输出层。交叉熵误差函数为 E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j 分别以和为目标，并在神经元处输出。总和在输出层的每个神经元上。本身是softmax函数的结果：tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} 同样，总和在输出层的每个神经元上，是神经元的输入：zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b 那是前一层中所有神经元的总和，其对应的输出为，权重朝向神经元加上偏差。oioio_iwijwijw_{ij}jjjbbb 现在，要更新连接输出层中的神经元和上一层中的神经元的权重，我需要使用链式规则来计算误差函数的偏导数：wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} 用作为神经元的输入。zjzjz_jjjj 最后一个词很简单。由于和之间只有一个权重，因此导数为：iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i 第一项是关于输出的误差函数的：ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j} 中间项是softmax函数相对于其输入更难：zjzjz_j ∂oj∂zj=∂∂zjezj∑jezj∂oj∂zj=∂∂zjezj∑jezj\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} …

40 backpropagation derivative softmax cross-entropy

4

Logistic回归的成本函数如何推导

我正在Coursera上学习斯坦福大学的机器学习课程。在关于逻辑回归的章节中，成本函数是这样的：然后，它在这里派生：我尝试获取成本函数的导数，但是却得到了完全不同的东西。如何获得导数？中间步骤是什么？

29 regression logistic gradient-descent derivative

1

反向模式自动微分的分步示例

不知道这个问题是否属于这里，但它与优化中的梯度方法密切相关，在这里似乎很热门。无论如何，如果您认为其他社区对此主题有更好的专业知识，请随时迁移。简而言之，我正在寻找反向模式自动微分的分步示例。关于该主题的文献不多，并且在不了解其背后的理论的情况下，很难理解现有的实现（例如TensorFlow中的内容）。因此，如果有人能详细显示我们传入的内容，我们如何处理它以及从计算图中得出的内容，我将非常感激。我最难解决的几个问题：种子 -为什么我们完全需要它们？反向差异化规则 -我知道如何进行差异化，但是我们如何向后退？例如，在从示例本节，我们怎么知道w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1？我们只使用符号还是通过实际值？例如，在相同的示例，是wiwiw_i和wi¯wi¯\bar{w_i}符号或值？

27 optimization derivative tensorflow automatic-differentiation

1

推导概率密度函数变量的变化？

在书本模式识别和机器学习（公式1.27）中， pÿ（y）= pX（x ）∣∣∣dXdÿ∣∣∣= pX（克（y））| G′（y）|pÿ（ÿ）=pX（X）|dXdÿ|=pX（G（ÿ））|G′（ÿ）|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | 其中x=g(y)x=g(y)x=g(y)，px(x)px(x)p_x(x)，是pdf对应于py(y)py(y)p_y(y)相对于所述变量的变化。这些书说，这是因为在观察范围内的下降(x,x+δx)(x,x+δx)(x, x + \delta x)会，为小值δxδx\delta x，转化为范围(y,y+δy)(y,y+δy)(y, y + \delta y)。这是如何正式得出的？来自Dilip Sarwate的更新仅当GGg是严格单调递增或递减函数时，结果才成立。一些小修改以LV Rao的答案因此，如果gP（是≤ ÿ）= P（克（X）≤ ÿ）= { P（X≤ 克− 1（y）），P（X≥ 克− 1（y）），如果g 单调增加如果g 单调递减P（ÿ≤ÿ）=P（G（X）≤ÿ）={P（X≤G-1（ÿ）），如果 G 单调增加P（X≥G-1（ÿ）），如果 G 单调递减 \begin{equation} …

16 machine-learning probability self-study derivative jacobian

3

如何将样条曲线拟合到包含值和一阶/二阶导数的数据？

我有一个数据集，其中包含一些位置，速度和加速度的测量值。全部来自同一“运行”。我可以构造一个线性系统，并将多项式拟合所有这些度量。但是我可以用样条线做同样的事情吗？这样做的“ R”方式是什么？这是一些我想拟合的模拟数据： f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- …

14 r model fitting splines derivative

2

高斯过程的导数

我相信高斯过程（GP）的导数是另一个GP，因此我想知道GP的导数的预测方程式是否存在闭式方程式？特别是，我正在使用平方指数（也称为高斯）协方差核，想了解有关对高斯过程的导数进行预测的信息。

12 stochastic-processes gaussian-process derivative

1

损失函数的二阶近似（深度学习书，7.33）

在Goodfellow（2016）的一本关于深度学习的书中，他谈到了尽早停止与L2正则化的等效性（https://www.deeplearningbook.org/contents/regularization.html第247页）。成本函数二次逼近由下式给出：jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) 其中是Hessian矩阵（方程7.33）。这是缺少中期吗？泰勒展开应该是： HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

1

解释概率测度之间的Radon-Nikodym导数？

我在某些点上已经看到了相对于另一种概率度量使用Radon-Nikodym导数，最明显的是在Kullback-Leibler散度中，其中它是模型对某些任意参数的概率度量的导数。关于真实参数：θ 0θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} 这些都是在参数值条件下对数据点空间的概率度量。Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) 在Kullback-Leibler散度中或更普遍地在两个概率测度之间，这种Radon-Nikodym导数的解释是什么？

11 mathematical-statistics kullback-leibler derivative measure-theory

3

神经网络可以学习功能及其功能派生吗？

我了解到，在某些假设下（在网络和要近似的函数上），神经网络（NN）可以视为函数及其派生类的通用逼近器。实际上，我已经对简单但非平凡的函数（例如多项式）进行了许多测试，似乎我确实可以很好地近似它们和它们的一阶导数（下面显示一个示例）。然而，我不清楚的是，导致上述结论的定理是否扩展到（或可能扩展到）泛函及其函数导数。例如，考虑以下函数：，其中函数导数：其中，完全而不是完全取决于。NN可以学习上面的映射及其功能派生吗？更具体地说，如果一个离散化的域比和提供（在离散点）作为输入和F[ f（（x ）] = ∫b一个dX ˚F （x ）克（x ）F[F（X）]=∫一个bdX F（X）G（X）\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation}δF[ f（x ）]δF（x ）=g（x ）δF[F（X）]δF（X）=G（X）\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation}F（x ）F（X）f(x)G（x ）G（X）g(x)XXx[ a ，b ][一个，b][a,b]F（x ）F（X）f(x)F[ f（x ）]F[F（X）]F[f(x)]作为输出，NN能否正确（至少在理论上）正确学习此映射？如果是这样，它还能学习映射的功能导数吗？我已经做过许多测试，似乎NN确实可以在某种程度上学习映射。但是，虽然此映射的准确性尚可，但并不理想。麻烦的是计算出的函数导数是完全垃圾（尽管这两个都可能与训练等有关）。一个例子如下所示。F[ f（x ）]F[F（X）]F[f(x)] 如果NN不适合学习某个函数及其函数导数，那么还有另一种机器学习方法吗？例子：（1）以下是近似函数及其衍生物的一个例子：一个NN被训练学习函数在范围[-3,2]：从该合理得到与近似值：请注意，正如预期的那样，对的NN近似值及其一阶导数随训练点数，NN体系结构的改善而提高，因为在训练过程中发现了更好的最小值等。F（x ）= x3+ x …

11 machine-learning neural-networks function derivative

1

是什么证明了矩阵函数导数的这种计算是合理的？

在吴安德（Andrew Ng）的机器学习课程中，他使用以下公式： ∇一个吨- [R （甲乙甲ŤC）= C甲乙+ C ^Ť一乙Ť∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T 他做了一个快速证明，如下所示： ∇一个吨- [R （甲乙甲ŤC）= ∇一个吨- [R （˚F（A ）AŤC）= ∇∘吨- [R （˚F（∘ ）AŤC）+ ∇∘吨- [R （˚F（一）∘ŤC）= （AŤC）ŤF′（∘ ）+ （∇∘Ť吨- [R （˚F（一）∘ŤC）Ť= CŤ一乙Ť+ （∇∘Ť吨- [R （∘Ť）CF（A ））Ť= CŤ一乙Ť+ （（CF（A ））Ť）Ť= CŤ一乙Ť+ C一乙∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = …

10 machine-learning matrix derivative

Questions tagged «derivative»