为什么均方误差是经验分布和高斯模型之间的交叉熵?


28

在5.5版《深度学习》中(由伊恩·古德费洛(Ian Goodfellow),约书亚·本吉欧(Yoshua Bengio)和亚伦·库维尔(Aaron Courville)指出)

由负对数可能性组成的任何损失都是训练集定义的经验分布与模型定义的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。

我不明白为什么它们是等同的,作者对此也没有扩展。

Answers:


32

假设数据为。为经验分布写。根据定义,对于任何函数,F xfx=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

令模型具有密度,其中在模型的支持下定义。的交叉熵的和被定义为È ˚F X ˚FMef(x)fMF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

假设是一个简单的随机样本,则它的负对数似然为x

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

借助对数的属性(它们将乘积转换为和)。表达式是常数乘以表达式。因为损失函数仅通过比较它们而用于统计数据,所以一个是(正)常数乘以另一个就没有区别。在这种意义上,负对数似然在报价中是“交叉熵”。n 1 (2)n(1)


需要更多的想象力来证明报价的第二个主张。平方误差的关系很明显,因为对于“高斯模型”,它预测点处的值,则在任何这样的点处的值都是x fp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

这是平方误差但重新缩放了并移位了函数 一种使报价正确的方法是假定它不考虑作为“模型”的一部分- 必须以某种方式确定确定,而与数据无关。在这种情况下,差异均方误差之间是成正比的差异交叉熵或对数似然之间,从而使所有三个等效模型拟合的目的。1 /2 σ 2σ σ σ(xp(x))2 1/(2σ2)σσσ

(不过,通常,适合作为建模过程的一部分,在这种情况下,引用将不太正确。)σ=σ(x)


1
+1有两个建议-可以使用代替以避免与混淆。第二个是大多数估计将是。将其插入并添加后,您会获得。类似于AIC类型的公式…˚F ˚F σ 2 ķ Σ Ñ = 1X - p X 2 - 1g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
概率

@probabilityislogic我选择和对,因为它们确实代表密切相关的数量。˚FFf
whuber

嗨,我认为这仅适用于线性分布。在非线性分布问题中,我认为我们仍然可以将MSE用作成本函数,对吗?
狮Lion

5

对于深度学习书的读者,我想添加一个广为接受的出色答案,即作者将在5.5.1节中详细解释其陈述,即示例:线性回归为最大似然

在那里,他们精确列出了接受的答案中提到的约束:

ýX ; 瓦特σ 2p(y|x)=N(y;y^(x;w),σ2)。函数给出高斯平均值的预测。在此示例中,我们假设方差固定为用户选择的某个常数。y^(x;w)σ2

然后,他们表明MSE的最小化对应于最大似然估计,因此经验分布和之间的交叉熵最小化。p(y|x)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.