MLE和交叉熵之间的联系在深度学习中有多有意义?
我了解给定了独立的观测值 的最大似然估计(或,等价地,具有平坦的MAP /均匀)之前标识所述参数\ mathbf {θ}产生该模型分布 P_ {模型} \ 与这些观测值最匹配的left(\,\ cdot \,; \ mathbf {θ} \ right)将是直径: = { Ö (1 ),。。。,o (m ) }mmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=argmaxθ∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 或者,更方便 θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 并了解θMLθML\mathbf{θ}_{ML}在定义多类深度神经网络的损失函数中可以发挥的作用,其中θθ\mathbf{θ}对应于网络的可训练参数(例如θ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} ),观察值是输入激活对xx\mathbf{x}和相应的正确类标签y∈[1,k]y∈[1,k]y \in …