Answers:
假设数据为。为经验分布写。根据定义,对于任何函数,F (x)f
令模型具有密度,其中在模型的支持下定义。的交叉熵的和被定义为È ˚F (X ) ˚FM
假设是一个简单的随机样本,则它的负对数似然为
借助对数的属性(它们将乘积转换为和)。表达式是常数乘以表达式。因为损失函数仅通过比较它们而用于统计数据,所以一个是(正)常数乘以另一个就没有区别。在这种意义上,负对数似然在报价中是“交叉熵”。n (1 )
需要更多的想象力来证明报价的第二个主张。平方误差的关系很明显,因为对于“高斯模型”,它预测点处的值,则在任何这样的点处的值都是x f
这是平方误差但重新缩放了并移位了函数。 一种使报价正确的方法是假定它不考虑作为“模型”的一部分- 必须以某种方式确定确定,而与数据无关。在这种情况下,差异均方误差之间是成正比的差异交叉熵或对数似然之间,从而使所有三个等效模型拟合的目的。1 /(2 σ 2)σ σ σ
(不过,通常,适合作为建模过程的一部分,在这种情况下,引用将不太正确。)
对于深度学习书的读者,我想添加一个广为接受的出色答案,即作者将在5.5.1节中详细解释其陈述,即示例:线性回归为最大似然。
在那里,他们精确列出了接受的答案中提到的约束:
ý(X ; 瓦特)σ 2。函数给出高斯平均值的预测。在此示例中,我们假设方差固定为用户选择的某个常数。
然后,他们表明MSE的最小化对应于最大似然估计,因此经验分布和之间的交叉熵最小化。