Questions tagged «derivative»

对于涉及导数的数学概念的主题问题,即。对于有关导数的纯粹数学问题,最好在数学SE上提问https://math.stackexchange.com/ ddxf(x)

6
使用Softmax /交叉熵进行反向传播
我试图了解反向传播如何用于softmax /交叉熵输出层。 交叉熵误差函数为 E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j 分别以和为目标,并在神经元处输出。总和在输出层的每个神经元上。本身是softmax函数的结果:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} 同样,总和在输出层的每个神经元上,是神经元的输入:zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b 那是前一层中所有神经元的总和,其对应的输出为,权重朝向神经元加上偏差。oioio_iwijwijw_{ij}jjjbbb 现在,要更新连接输出层中的神经元和上一层中的神经元的权重,我需要使用链式规则来计算误差函数的偏导数:wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} 用作为神经元的输入。zjzjz_jjjj 最后一个词很简单。由于和之间只有一个权重,因此导数为:iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i 第一项是关于输出的误差函数的:ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j} 中间项是softmax函数相对于其输入更难:zjzjz_j ∂oj∂zj=∂∂zjezj∑jezj∂oj∂zj=∂∂zjezj∑jezj\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} …


1
反向模式自动微分的分步示例
不知道这个问题是否属于这里,但它与优化中的梯度方法密切相关,在这里似乎很热门。无论如何,如果您认为其他社区对此主题有更好的专业知识,请随时迁移。 简而言之,我正在寻找反向模式自动微分的分步示例。关于该主题的文献不多,并且在不了解其背后的理论的情况下,很难理解现有的实现(例如TensorFlow中的内容)。因此,如果有人能详细显示我们传入的内容,我们如何处理它以及从计算图中得出的内容,我将非常感激。 我最难解决的几个问题: 种子 -为什么我们完全需要它们? 反向差异化规则 -我知道如何进行差异化,但是我们如何向后退?例如,在从示例本节,我们怎么知道w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1? 我们只使用符号还是通过实际值?例如,在相同的示例,是wiwiw_i和wi¯wi¯\bar{w_i}符号或值?

1
推导概率密度函数变量的变化?
在书本模式识别和机器学习(公式1.27)中, pÿ(y)= pX(x )∣∣∣dXdÿ∣∣∣= pX(克(y))| G′(y)|pÿ(ÿ)=pX(X)|dXdÿ|=pX(G(ÿ))|G′(ÿ)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | 其中x=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x),是pdf对应于py(y)py(y)p_y(y)相对于所述变量的变化。 这些书说,这是因为在观察范围内的下降(x,x+δx)(x,x+δx)(x, x + \delta x)会,为小值δxδx\delta x,转化为范围(y,y+δy)(y,y+δy)(y, y + \delta y)。 这是如何正式得出的? 来自Dilip Sarwate的更新 仅当GGg是严格单调递增或递减函数时,结果才成立。 一些小修改以LV Rao的答案 因此,如果gP(是≤ ÿ)= P(克(X)≤ ÿ)= { P(X≤ 克− 1(y)),P(X≥ 克− 1(y)),如果g 单调增加如果g 单调递减P(ÿ≤ÿ)=P(G(X)≤ÿ)={P(X≤G-1(ÿ)),如果 G 单调增加P(X≥G-1(ÿ)),如果 G 单调递减 \begin{equation} …

3
如何将样条曲线拟合到包含值和一阶/二阶导数的数据?
我有一个数据集,其中包含一些位置,速度和加速度的测量值。全部来自同一“运行”。我可以构造一个线性系统,并将多项式拟合所有这些度量。 但是我可以用样条线做同样的事情吗?这样做的“ R”方式是什么? 这是一些我想拟合的模拟数据: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- …

2
高斯过程的导数
我相信高斯过程(GP)的导数是另一个GP,因此我想知道GP的导数的预测方程式是否存在闭式方程式?特别是,我正在使用平方指数(也称为高斯)协方差核,想了解有关对高斯过程的导数进行预测的信息。

1
损失函数的二阶近似(深度学习书,7.33)
在Goodfellow(2016)的一本关于深度学习的书中,他谈到了尽早停止与L2正则化的等效性(https://www.deeplearningbook.org/contents/regularization.html第247页)。 成本函数二次逼近由下式给出:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) 其中是Hessian矩阵(方程7.33)。这是缺少中期吗?泰勒展开应该是: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

1
解释概率测度之间的Radon-Nikodym导数?
我在某些点上已经看到了相对于另一种概率度量使用Radon-Nikodym导数,最明显的是在Kullback-Leibler散度中,其中它是模型对某些任意参数的概率度量的导数。关于真实参数:θ 0θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} 这些都是在参数值条件下对数据点空间的概率度量。Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) 在Kullback-Leibler散度中或更普遍地在两个概率测度之间,这种Radon-Nikodym导数的解释是什么?

3
神经网络可以学习功能及其功能派生吗?
我了解到,在某些假设下(在网络和要近似的函数上),神经网络(NN)可以视为函数及其派生类的通用逼近器。实际上,我已经对简单但非平凡的函数(例如多项式)进行了许多测试,似乎我确实可以很好地近似它们和它们的一阶导数(下面显示一个示例)。 然而,我不清楚的是,导致上述结论的定理是否扩展到(或可能扩展到)泛函及其函数导数。例如,考虑以下函数: ,其中函数导数: 其中,完全而不是完全取决于。NN可以学习上面的映射及其功能派生吗?更具体地说,如果一个离散化的域比和提供(在离散点)作为输入和F[ f((x )] = ∫b一个dX ˚F (x )克(x )F[F(X)]=∫一个bdX F(X)G(X)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation}δF[ f(x )]δF(x )=g(x )δF[F(X)]δF(X)=G(X)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation}F(x )F(X)f(x)G(x )G(X)g(x)XXx[ a ,b ][一个,b][a,b]F(x )F(X)f(x)F[ f(x )]F[F(X)]F[f(x)]作为输出,NN能否正确(至少在理论上)正确学习此映射?如果是这样,它还能学习映射的功能导数吗? 我已经做过许多测试,似乎NN确实可以在某种程度上学习映射。但是,虽然此映射的准确性尚可,但并不理想。麻烦的是计算出的函数导数是完全垃圾(尽管这两个都可能与训练等有关)。一个例子如下所示。F[ f(x )]F[F(X)]F[f(x)] 如果NN不适合学习某个函数及其函数导数,那么还有另一种机器学习方法吗? 例子: (1)以下是近似函数及其衍生物的一个例子:一个NN被训练学习函数在范围[-3,2]: 从该合理得到与近似值: 请注意,正如预期的那样,对的NN近似值及其一阶导数随训练点数,NN体系结构的改善而提高,因为在训练过程中发现了更好的最小值等。F(x )= x3+ x …

1
是什么证明了矩阵函数导数的这种计算是合理的?
在吴安德(Andrew Ng)的机器学习课程中,他使用以下公式: ∇一个吨- [R (甲乙甲ŤC)= C甲乙+ C ^Ť一乙Ť∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T 他做了一个快速证明,如下所示: ∇一个吨- [R (甲乙甲ŤC)= ∇一个吨- [R (˚F(A )AŤC)= ∇∘吨- [R (˚F(∘ )AŤC)+ ∇∘吨- [R (˚F(一)∘ŤC)= (AŤC)ŤF′(∘ )+ (∇∘Ť吨- [R (˚F(一)∘ŤC)Ť= CŤ一乙Ť+ (∇∘Ť吨- [R (∘Ť)CF(A ))Ť= CŤ一乙Ť+ ((CF(A ))Ť)Ť= CŤ一乙Ť+ C一乙∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.