如果负可能性等于可能性的最大值,为什么我们要使其最小呢?


47

这个问题困扰了我很长时间。我了解使用“对数”来最大程度地提高可能性,所以我不问“对数”。

我的问题是,由于最大化对数可能性等于最小化“负对数可能性”(NLL),为什么我们要发明这种NLL?为什么我们不一直使用“阳性可能性”?NLL在什么情况下受到青睐?

我在这里找到了一些解释。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/,它似乎在深度上解释了明显的等效性,但并不能解决我的困惑。

任何解释将不胜感激。


3
最大对数似然不是损失函数,但其​​负值如上一节中的文章所述。这是一个一致性问题。假设您有一个智能学习系统,针对给定问题尝试了不同的损失函数。损失函数集将包含平方损失,绝对损失等。要获得一致的列表,可以将负对数似然性添加到损失函数列表中。
Cagdas Ozgenc'3

Answers:


41

这是另一种答案:统计软件包中的优化器通常通过最小化函数结果来工作。如果您的函数先给出似然值,则使用对数会更方便,以减小似然函数返回的值。然后,由于对数似然和似然函数具有相同的增大或减小趋势,因此可以最小化负对数似然,以便实际执行要测试的函数的最大似然估计。例如,请参见此处的nlminb R函数


10
我想说的是,这甚至超出了优化器的范围,并且植根于优化理论中的约定。似乎最小化通常被视为默认优化。例如,考虑名称“凸优化”,它与最小化同时出现,但也可以很容易地称为“凹优化”。
2015年

48

优化程序通常会最小化函数,因此我们使用负对数可能性作为最小化,这等同于最大化对数可能性或可​​能性本身。

仅出于完整性考虑,我想说对数是单调函数,因此优化函数与优化对数相同。对似然函数进行对数变换可以更轻松地处理(乘法变为和),并且在数值上也更稳定。这是因为可能性的大小可能很小。进行对数变换会将这些小数字转换为较大的负值,有限精度的机器可以更好地处理这些负数。


4
例如,我在工作中经常遇到-40,000级的对数似然率。在这种情况下,从数量上讲不可能与可能性本身一起工作。
Will Vousden 2015年

3

在这里,最小化意味着将两个分布的距离减小到最低:目标伯努利分布和生成的结果分布。我们测量使用相对熵两个分布之间的距离(也称为相对熵),并且由于大量的理论最小化KL散度量来最小化交叉熵(或者多类交叉熵,请参见此处或二元分类,请参见这里在这里)。

从而

最大化对数可能性等于最小化“负对数可能性”

可以翻译成

最大化对数似然性等同于最小化两个分布之间的距离,因此等同于最小化KL发散,然后最小化交叉熵。

我认为它已经变得非常直观。


1

答案比您想象的要简单。按照惯例,我们将优化目标函数称为“成本函数”或“损失函数”,因此,我们希望将其最小化,而不是最大化,因此形成负对数似然性,而不是正对数字。从技术上来说,两者都是正确的。顺便说一句,如果我们确实想最大化某些东西,通常我们将其称为“效用函数”,因此目标是使其最大化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.