如果负可能性等于可能性的最大值，为什么我们要使其最小呢？

47

这个问题困扰了我很长时间。我了解使用“对数”来最大程度地提高可能性，所以我不问“对数”。

我的问题是，由于最大化对数可能性等于最小化“负对数可能性”（NLL），为什么我们要发明这种NLL？为什么我们不一直使用“阳性可能性”？NLL在什么情况下受到青睐？

我在这里找到了一些解释。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/，它似乎在深度上解释了明显的等效性，但并不能解决我的困惑。

任何解释将不胜感激。

maximum-likelihood likelihood

— 托尼
source

3

最大对数似然不是损失函数，但其负值如上一节中的文章所述。这是一个一致性问题。假设您有一个智能学习系统，针对给定问题尝试了不同的损失函数。损失函数集将包含平方损失，绝对损失等。要获得一致的列表，可以将负对数似然性添加到损失函数列表中。

— Cagdas Ozgenc'3

41

这是另一种答案：统计软件包中的优化器通常通过最小化函数结果来工作。如果您的函数先给出似然值，则使用对数会更方便，以减小似然函数返回的值。然后，由于对数似然和似然函数具有相同的增大或减小趋势，因此可以最小化负对数似然，以便实际执行要测试的函数的最大似然估计。例如，请参见此处的nlminb R函数

— 尼古拉·迪纳波利（Nicola Dinapoli）
source

10

我想说的是，这甚至超出了优化器的范围，并且植根于优化理论中的约定。似乎最小化通常被视为默认优化。例如，考虑名称“凸优化”，它与最小化同时出现，但也可以很容易地称为“凹优化”。

— 2015年

48

优化程序通常会最小化函数，因此我们使用负对数可能性作为最小化，这等同于最大化对数可能性或可能性本身。

仅出于完整性考虑，我想说对数是单调函数，因此优化函数与优化对数相同。对似然函数进行对数变换可以更轻松地处理（乘法变为和），并且在数值上也更稳定。这是因为可能性的大小可能很小。进行对数变换会将这些小数字转换为较大的负值，有限精度的机器可以更好地处理这些负数。

— 路卡
source

4

例如，我在工作中经常遇到-40,000级的对数似然率。在这种情况下，从数量上讲不可能与可能性本身一起工作。

— Will Vousden 2015年

3

在这里，最小化意味着将两个分布的距离减小到最低：目标伯努利分布和生成的结果分布。我们测量使用相对熵两个分布之间的距离（也称为相对熵），并且由于大量的理论最小化KL散度量来最小化交叉熵（或者多类交叉熵，请参见此处或二元分类，请参见这里和在这里）。

从而

最大化对数可能性等于最小化“负对数可能性”

可以翻译成

最大化对数似然性等同于最小化两个分布之间的距离，因此等同于最小化KL发散，然后最小化交叉熵。

我认为它已经变得非常直观。

— 张乐纳
source

1

答案比您想象的要简单。按照惯例，我们将优化目标函数称为“成本函数”或“损失函数”，因此，我们希望将其最小化，而不是最大化，因此形成负对数似然性，而不是正对数字。从技术上来说，两者都是正确的。顺便说一句，如果我们确实想最大化某些东西，通常我们将其称为“效用函数”，因此目标是使其最大化。

— 杨
source