使用对数似然比与可能性的理论动机


18

我试图在更深层次上理解统计和概率论中对数似然性(也许更一般地说对数概率)的普遍性。对数概率随处可见:我们通常使用对数似然进行分析(例如,最大化),Fisher信息是根据对数似然的二阶导数定义的,熵是预期的对数概率,Kullback-Liebler散度涉及对数概率,预期差异是预期对数可能性,等等。

现在,我感谢许多实际方便的原因。许多常见和有用的pdf都来自指数族,这在对数转换时会导致术语的简化。总和比产品更容易使用(尤其是用于区分)。对数概率比直概率有很大的浮点优势。对数转换pdf通常会将非凹函数转换为凹函数。但是对数概率的理论原因/合理性/动机是什么?

作为我困惑的一个示例,请考虑Fisher信息(FI)。理解FI的通常解释是对数似然率的二阶导数告诉我们对数似然率有多“峰值”:对数似然率高度峰值意味着MLE已得到很好的指定,我们相对确定其价值,尽管近似平坦的对数似然(低曲率)意味着许多不同的参数值(就对数似然而言)几乎与MLE一样好,所以我们的MLE更加不确定。

这一切都很好,但是仅仅找到似然函数本身的曲率(不进行对数转换)是否更自然?乍一看,对数转换的强调似乎是任意和错误的。当然,我们对实际似然函数的曲率更感兴趣。Fisher使用计分函数和对数似然的Hessian的动机是什么?

答案是否简单,最后,我们从对数似然渐近地得到了不错的结果?例如,Mram /后部的Cramer-Rao和正态性。还是有更深层次的原因?


Answers:


13

这实际上只是对数可能性的便利,仅此而已。

我的意思是求和与乘积的便利:,求和在许多方面都易于处理,例如微分或积分。我想说的是,这对仅指数型家庭来说不是一个方便。ln(ixi)=ilnxi

当您处理随机样本时,可能性的形式为:,因此对数似然会将该乘积分解为和,从而更易于操纵和分析。帮助我们关心的只是最大值的点,最大值并不重要,因为我们可以应用任何单调变换,例如对数。L=ipi

关于曲率的直觉。最后,它与对数似然的二阶导数基本上是相同的。

更新:这就是我对曲率的意思。如果您有函数,那么它的曲率将是(参见 Wolfram上的(14)): κ = f ''x y=f(x)

κ=f(x)(1+f(x)2)3/2

对数似然的二阶导数:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

在最大值处,一阶导数显然为零,​​因此我们得到: 因此,我打趣说对数似然率和对数似然的二阶导数是同一件事。

κmax=f(xmax)=Af(xmax)

另一方面,如果似然的一阶导数不仅在最大值处而且在最大值附近较小,即似然函数是平坦的,那么我们得到: 现在,平坦似然对我们来说不是一件好事,因为它使从数值上寻找最大值变得更加困难,并且最大似然并不比周围的其他点好,即参数估计误差很大。

κf(x)Af(x)

同样,我们仍然具有曲率和二阶导数关系。那么,费舍尔为什么不关注似然函数的曲率呢?我认为是出于方便的原因。由于总和而不是乘积,因此更容易操纵对数似然。因此,他可以通过分析对数似然的二阶导数来研究可能性的曲率。尽管方程对于曲率看起来非常简单,但实际上您正在乘积的二阶导数,该值比二阶导数之和更混乱。κmax=f(xmax)

更新2:

这是一个示范。我画了一个(完全组成的)似然函数,它的a)曲率和b)对数的二阶导数。在左侧,您看到的可能性很小,而在右侧,它的可能性很大。您将看到在最大似然a)和b)的点如何收敛。但是,更重要的是,您可以通过检查似然函数的对数似然的二阶导数来研究其宽度(或平坦度)。正如我之前所写,后者在技术上要比前者更简单。

不出所料,对数似然信号的二阶导数越深,似然函数越接近其最大值越平坦,这是不希望的,因为它会导致更大的参数估计误差。

在此处输入图片说明

如果要复制图,请使用MATLAB代码:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

更新3:

在上面的代码中,我将一些任意钟形函数插入曲率方程式,然后计算了其对数的二阶导数。我没有重新缩放任何东西,这些值直接来自方程式,以显示我之前提到的等效性。

是费舍尔还在大学时发表的关于可能性的第一篇论文,“关于拟合频率曲线的绝对标准”,《数学使者》,第41期:155-160(1912年)。

正如我一直坚持的那样,他没有提到对数概率与熵和其他奇特主题之间的“更深层次”联系,他也没有提供信息标准。他只是简单地将等式放在第54页,然后继续讨论使概率最大化。我认为,这表明他将对数用作分析联合概率本身的便捷方法。它是在连续的曲线拟合,为此他给出了第55页的式明显特别有用: 好运分析该似然(或概率为每费舍尔)没有日志!日志P = ∫ - 登录˚F d X PlogP=1nlogp

logP=logfdx
P

在阅读本文时要注意的一件事,他只是从最大似然估计工作开始,并且在随后的10年中做了更多工作,据我所知,甚至还没有创造出MLE一词。


5
您的最后一句话(关于曲率)暗示着对数似然性确实存在一些基本知识,并且获取对数不只是“便利”。我相信这里正在发生的事情比您允许的更多。
ub

2
您对曲率的讨论似乎无关紧要,因为它没有将对数似然性分析与似然性本身的分析区分开。这个答案似乎归结为“日志很方便”,但是这个问题的意义远不止于此,因为其他答案已经开始暗示。
ub

@Aksakal好,谢谢,我想我现在看到了。指定似然函数直至任意乘法常数。因此,最大似然值也是任意的。例如,通常使用单位归一化似然函数,其中。在那种情况下,似然和对数似然的二阶导数最大是相等的。f x m a x= 1f(xmax)f(xmax)=1
ratalad17年

因此,将对数似然性用于Fisher信息显然有两个实际目的:(1)对数似然性更易于使用,并且(2)自然会忽略任意缩放因子。并且,它给出与直接似然的二阶导数相同的答案。对我而言,这似乎很重要,这一点并不明显,而且我从未见过任何统计文本中提到过。大概是费希尔知道的。
ratalad17年

f x m a x= 1 f x m a x'' = ln f x ''
f(xmax)=(lnf(x))f(xmax)
并且如果将任意乘法常数设为f(xmax)=1
f(xmax)=(lnf(x))
ratsalad

5

附加点。一些常用的概率分布(包括正态分布,指数分布,拉普拉斯分布,仅举几例)是对数凹形的。这意味着它们的对数是凹的。这使得最大化对数概率比最大化原始概率要容易得多(这在最大似然法或最大后验方法中特别方便)。举个例子,使用牛顿法直接最大化多元高斯分布可能要花费很多步骤,而最大化抛物面(多元高斯分布的对数)则只需要一步。


2
没那么快。请参阅web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf上第393-394
Mark L.Stone

那不是日志凹入的。高斯对参数或均值参数是对数凹入的,对方差也不是对数凹入的。如果还需要确定比例,则可以使用正态伽玛分布,该分布也是对数凹入的(使用精度而不是方差)。
卡·花旗

2
就是这个 关于如何更方便地使用日志的所有讨论都不错,但是凸度(或凹度,取决于透视图)才是真正区别日志可能性的“正确”方法。
Meni Rosenfeld

2
请注意,我已经在OP中提到了日志凹度。但是,这仍然只是“便利”,此处没有原木凹度的理论依据,并且在任何情况下,原木似然度通常都不是原木凹度。
ratsalad '17

1
@ratsalad,是的,您是对的,这很方便。我认为对数概率是查看概率函数的另一种方法。我不能肯定地说哪个更好。如果您查看[ en.wikipedia.org/wiki/…度量值],则某些有效地处理了对数概率(例如KL散度实际上是对数概率之差的期望值),有些则直接影响了概率(例如KS距离)。
卡·花旗

4

对数似然的理论重要性可以从(至少)两个角度看出:渐近似然理论和信息论。

这些中的较早者(我相信)是对数似然的渐近理论。我认为,在费舍尔将其理论推向20世纪统治地位的最大可能性之后,信息理论发展良好。

在似然理论中,抛物线对数似然在推论中占据中心位置。Lucien Le Cam在阐明二次对数似然在渐近理论中的重要性方面发挥了重要作用

当您具有二次对数似然时,不仅MLE的曲率定性地告诉您可以精确估计参数的方式,而且我们还知道误差的正态分布与曲率的倒数相等。当对数似然近似为平方时,那么我们说这些结果近似或渐近地成立。

第二个原因是信息论中对数似然(或对数概率)的显着性,它是衡量信息内容的主要量。

ggf(θ)f(θ^)θ^

最后,对数似然是在各种模型选择标准(例如AICBIC)中使用的数量。本质上,每个标准都等于倍数的额外参数/自由度。lnL^

因此,对数可能性除了是有用的数值转换外,还与推理和信息论有着深厚的联系。


您对信息论对数似然的使用的参考是循环的。他们为什么使用日志?可能是出于相同的原因,尤其是如果您认为信息理论与统计相比是一个相对较新的领域。
阿克萨卡族人

@Aksakal是和否。信息理论的基础部分得益于统计力学和熵:en.wikipedia.org/wiki/Entropy。玻尔兹曼使用微状态数的对数定义了系统的熵。为什么要记录?因为它使熵/信息加在一起(如您的答案所指出)?所以呢?在数字水平上,线性/可加性开辟了线性代数强大方法的使用。

1
但是,@ Aksakal在更基本的层面上将可加性将熵/信息转化为类似于质量的量度。如果将两个统计上独立的系统组合在一起,那么组合系统的熵就是每个系统的熵之和。这是一个很好的解释器:physics.stackexchange.com/questions/240636/…–

1
@Bey热力学统计熵实际上直接来自微观状态的Boltzmann分布和经典的宏观热学(统计机械熵的形式不是“选择”)。玻尔兹曼分布本身是两个前提的结果:(1)能量的物理属性仅指定为任意加性常数,(2)基本静态机械假设,即所有具有相同能量的微态都具有相同的概率。因此,在最深的层次上,热熵涉及对数概率,因为能量是可加的并且与对数概率成比例。
ratsalad '17

2
@ratsalad感谢您对此进行扩展...如您所见,超越简单的“日志更容易”,对日志似然性的解释可能会走得很远。我使用对数似然的原因是Aksakal给出的原因...但是,您的OP要求更深入的信息。我给出了两个示例,这些示例显示了与影响统计学和似然理论的其他领域的联系。我认为渐近解释更直接,但熵和概率的联系方式使对数概率成为我们感兴趣的事情,而不仅仅是数字上的方便。

0

TLDR:求和要比乘积容易得多,因为微分算子与求和成线性关系,但对乘积u必须做乘积规则。它是线性复杂度与一些高阶多项式复杂度


3
这就是问题的“便捷实用”的含义。它远非分析重点放在对数似然上的唯一或什至主要原因。例如,考虑根据可能性而不是对数可能性,Fisher Information的表达式是什么样。
ub

耶,当然了; 我认为当他说直接找到它的“更轻松”时,我认为他的意思恰恰相反,因为在应用对数转换之后,找到它当然更容易。
查理·田
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.