我了解给定了独立的观测值
的最大似然估计(或,等价地,具有平坦的MAP /均匀)之前标识所述参数\ mathbf {θ}产生该模型分布 P_ {模型} \
与这些观测值最匹配的left(\,\ cdot \,; \ mathbf {θ} \ right)将是直径: = { Ö (1 ),。。。,o (m ) }mO={o(1),...,o(m)}θpmodel(⋅;θ)
θML(O)=pmodel(O;θ)=argmaxθ∏i=1mpmodel(o(i);θ)
或者,更方便
θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)
并了解θML在定义多类深度神经网络的损失函数中可以发挥的作用,其中θ对应于网络的可训练参数(例如θ={W,b}),观察值是输入激活对x和相应的正确类标签y∈[1,k],o(i) = { x(i),y(i) },方法是
pmodel(o(i);θ)≡pmodel(y(i)|x(i);θ)
我不明白的是,这与(矢量化的)正确输出\ mathbf {y} ^ {(i)}的所谓“交叉熵”以及y(i)网络的相应输出激活ħ (ø (我) ; θ)= - Ý (我) ⋅ 升Ô 克a(x(i);θ)
H(o(i);θ)=−y(i)⋅loga(x(i);θ)
,其在实践中的训练过程中测量错误/丢失时使用。有几个相关的问题:
激活“作为概率”
建立MLE和交叉熵之间关系的步骤之一是使用输出激活“好像”它们是概率。但目前还不清楚,我认为他们是,或者至少他们all在。
在计算训练误差时,特别是在称其为“交叉熵损失”时,假设(将激活归一化为1之后)
p米ø dË 升(o(我); θ) ≡ 一个ÿ(我)(x(我); θ)(1)
要么
日志p米ø dË 升(o(我); θ) = 对数一个ÿ(我)(x(我); θ)
这样我们就可以写
− 日志p米ø dË 升(o(我); θ) = − y(我)⋅loga(x(i);θ)(3)
因此
θML(O)=argminθ∑i=1mH(o(i);θ)
但是,尽管这确实使成为概率(在某种程度上是)对其他激活没有任何限制。ay(i)(x(i);θML)
可以在真的可以说是在这种情况下,保偏光纤?是否有什么使实际上不是概率(而仅仅是“喜欢”它们) )?一个Ý (我)( X (我) ; θ中号大号)ay(i)(x(i);θML)ay(i)(x(i);θML)
分类的局限性
在使MLE与交叉熵相等方面,上述关键步骤完全取决于的“单一”结构,该结构表征了(单标签)多类学习问题。任何其他结构都将使从到变得不可能。y (i )(1)(3)y(i)y(i)(1)(3)
MLE和交叉熵最小化的方程式是否仅限于是“一个热点”的情况? y(i)
不同的训练和预测概率
在预测期间,几乎总是这样
pmodel(y(i)|x(i);θ)≡P(argmaxj∈[1,k]aj(x(i);θ)=y(i))(2)
除非确实是这样,否则得出的正确预测概率与在训练中学习的概率不同
ay(i)(x(i);θML)=P(argmaxj∈[1,k]aj(x(i);θML)=y(i))
这是可靠的情况吗?可能至少近似正确吗?还是有其他一些论据可以证明学习激活值在该位置出现的概率来证明此激活方程在标签位置的值是否合理?
熵与信息论
即使假设以上问题已得到解决,并且激活是有效的PMF(或可以有意义地视为此类激活),因此交叉熵在计算 所扮演的角色也不成问题,目前尚不清楚我为什么讨论的熵是有用或有意义的,因为Shanon熵适用于特定的一种编码,不是用于训练网络的一种编码。一个( X (我) ; θ中号大号)θMLa(x(i);θML)
信息理论熵在解释成本函数中起什么作用,而不是简单地提供一种工具(以交叉熵的形式)来计算一个(对应于MLE)?
softmax_cross_entropy_with_logits
所做的事情:它们计算 ,因此定义了“设计为”产生概率的网络(至少在标签位置)。没有? θ中号大号( ö)