Questions tagged «cross-entropy»

5
神经网络中多类别,多标签分类任务的损失函数是什么?
我正在训练一个神经网络,以将一组对象分类为n类。每个对象可以同时属于多个类(多类,多标签)。 我读到,对于多类问题,通常建议使用softmax和分类交叉熵代替mse作为损失函数,并且我或多或少地了解了为什么。 对于我的多标签问题,使用softmax当然是没有意义的,因为每种类别的概率都应该彼此独立。因此,我的最后一层就是S型单元,将其输入压缩到每个类的概率范围为0..1。 现在我不确定应该使用什么损失函数。观察分类交叉熵的定义,我认为它不适用于此问题,因为它将仅考虑应为1的神经元输出,而忽略其他神经元的输出。 二进制交叉熵听起来更合适,但是我只看到它曾经针对单个输出神经元的二进制分类问题提到过。 我正在使用python和keras进行培训,以防万一。

6
使用Softmax /交叉熵进行反向传播
我试图了解反向传播如何用于softmax /交叉熵输出层。 交叉熵误差函数为 E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j 分别以和为目标,并在神经元处输出。总和在输出层的每个神经元上。本身是softmax函数的结果:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} 同样,总和在输出层的每个神经元上,是神经元的输入:zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b 那是前一层中所有神经元的总和,其对应的输出为,权重朝向神经元加上偏差。oioio_iwijwijw_{ij}jjjbbb 现在,要更新连接输出层中的神经元和上一层中的神经元的权重,我需要使用链式规则来计算误差函数的偏导数:wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} 用作为神经元的输入。zjzjz_jjjj 最后一个词很简单。由于和之间只有一个权重,因此导数为:iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i 第一项是关于输出的误差函数的:ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j} 中间项是softmax函数相对于其输入更难:zjzjz_j ∂oj∂zj=∂∂zjezj∑jezj∂oj∂zj=∂∂zjezj∑jezj\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} …


3
机器学习:我应该使用分类交叉熵还是二进制交叉熵损失进行二进制预测?
首先,我意识到如果需要执行二进制预测,则必须通过执行一次热编码来创建至少两个类。它是否正确?但是,二元互熵是否仅适用于只有一个类别的预测?如果我使用大多数图书馆(例如TensorFlow)中常见的分类交叉熵损失,会不会有明显的不同? 实际上,分类交叉熵和二进制交叉熵之间的确切区别是什么?我从未在TensorFlow中看到过二进制交叉熵的实现,所以我认为也许绝对分类的效果同样好。

2
为什么均方误差是经验分布和高斯模型之间的交叉熵?
在5.5版《深度学习》中(由伊恩·古德费洛(Ian Goodfellow),约书亚·本吉欧(Yoshua Bengio)和亚伦·库维尔(Aaron Courville)指出) 由负对数可能性组成的任何损失都是训练集定义的经验分布与模型定义的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。 我不明白为什么它们是等同的,作者对此也没有扩展。

2
骰子系数损失函数与交叉熵
在训练像素分割神经网络(例如全卷积网络)时,您如何决定使用交叉熵损失函数还是Dice系数损失函数? 我意识到这是一个简短的问题,但不确定要提供什么其他信息。我看了一堆有关这两个损失函数的文档,但是无法直观地了解何时使用它们。

1
自动编码器的损耗功能
我正在尝试一些自动编码器,并使用tensorflow创建了一个试图重建MNIST数据集的模型。 我的网络非常简单:X,e1,e2,d1,Y,其中e1和e2是编码层,d2和Y是解码层(Y是重构的输出)。 X具有784个单位,e1具有100个单位,e2具有50个单位,d1具有100个单位,Y具有784个单位。 我将S型曲线用作层e1,e2,d1和Y的激活函数。输入在[0,1]中,因此应该是输出。 好吧,我尝试使用交叉熵作为损失函数,但输出始终是斑点,并且我注意到从X到e1的权重始终会收敛到零值矩阵。 另一方面,将均方误差用作损失函数,会产生不错的结果,我现在可以重构输入。 为什么呢?我以为我可以将这些值解释为概率,因此可以使用交叉熵,但是显然我做错了。

5
在回归分析中,交叉熵成本是否有意义?
在回归(相对于分类)的上下文中,交叉熵成本是否有意义?如果是这样,您可以通过TensorFlow给出一个玩具示例吗?如果没有,为什么不呢? 我正在阅读迈克尔·尼尔森(Michael Nielsen)的《神经网络和深度学习》中的交叉熵,它似乎可以自然地用于回归和分类,但是我不知道您如何在TensorFlow中有效地应用它。损失函数采用logit(我也不是很了解),它们在此处归类

2
交叉熵损失函数的不同定义
我从使用Neuronetworksanddeeplearning点com教程开始学习神经网络。特别是在第三章中,有一节关于交叉熵函数,并将交叉熵损失定义为: C= - 1ñ∑X∑Ĵ(yĴln一种大号Ĵ+ (1 − yĴ)ln(1 − a大号Ĵ))C=-1个ñ∑X∑Ĵ(ÿĴln⁡一种Ĵ大号+(1个-ÿĴ)ln⁡(1个-一种Ĵ大号))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) 但是,阅读Tensorflow简介后,交叉熵损失定义为: C= - 1ñ∑X∑Ĵ(yĴln一种大号Ĵ)C=-1个ñ∑X∑Ĵ(ÿĴln⁡一种Ĵ大号)C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)(使用与上面相同的符号时) 然后四处搜寻以查找发生了什么事情,我发现了另一组注释:(https://cs231n.github.io/linear-classify/#softmax-classifier),它使用了完全不同的交叉熵损失定义,尽管这时间用于softmax分类器,而不是神经网络。 有人可以告诉我这是怎么回事吗?为什么会有差异。人们将交叉熵损失定义为什么?是否有一些总体原则?

4
MLE和交叉熵之间的联系在深度学习中有多有意义?
我了解给定了独立的观测值 的最大似然估计(或,等价地,具有平坦的MAP /均匀)之前标识所述参数\ mathbf {θ}产生该模型分布 P_ {模型} \ 与这些观测值最匹配的left(\,\ cdot \,; \ mathbf {θ} \ right)将是直径: = { Ö (1 ),。。。,o (m ) }mmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 或者,更方便 θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=arg⁡minθ∑i=1m−log⁡pmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 并了解θMLθML\mathbf{θ}_{ML}在定义多类深度神经网络的损失函数中可以发挥的作用,其中θθ\mathbf{θ}对应于网络的可训练参数(例如θ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} ),观察值是输入激活对xx\mathbf{x}和相应的正确类标签y∈[1,k]y∈[1,k]y \in …

1
凭直觉,为什么交叉熵可以度量两个概率分布的距离?
对于两个离散分布和,交叉熵定义为pppqqq H(p ,q)= − ∑Xp (x )对数q( x )。H(p,q)=-∑Xp(X)日志⁡q(X)。H(p,q)=-\sum_x p(x)\log q(x). 我不知道为什么这将是两个概率分布之间距离的直观度量? 我看到是熵p,其中的措施“惊喜” p。H(p,q)是用q代替p的度量。我仍然不理解该定义背后的直观含义。H(p ,p )H(p,p)H(p,p)ppppppH(p ,q)H(p,q)H(p,q)pppqqq
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.