这实际上只是对数可能性的便利,仅此而已。
我的意思是求和与乘积的便利:,求和在许多方面都易于处理,例如微分或积分。我想说的是,这对仅指数型家庭来说不是一个方便。ln(∏一世X一世)= ∑一世lnX一世
当您处理随机样本时,可能性的形式为:,因此对数似然会将该乘积分解为和,从而更易于操纵和分析。帮助我们关心的只是最大值的点,最大值并不重要,因为我们可以应用任何单调变换,例如对数。L = ∏一世p一世
关于曲率的直觉。最后,它与对数似然的二阶导数基本上是相同的。
更新:这就是我对曲率的意思。如果您有函数,那么它的曲率将是(参见 Wolfram上的(14)):
κ = f ''(x )ÿ= f(x )
κ = f′(x )(1 + f′(x )2)3 / 2
对数似然的二阶导数:
A = (lnF(x ))′= f′(x )F(x )− (f′(x )F(x ))2
在最大值处,一阶导数显然为零,因此我们得到:
因此,我打趣说对数似然率和对数似然的二阶导数是同一件事。
κ中号一个X= f′(x中号一个X)= A f(x中号一个X)
另一方面,如果似然的一阶导数不仅在最大值处而且在最大值附近较小,即似然函数是平坦的,那么我们得到:
现在,平坦似然对我们来说不是一件好事,因为它使从数值上寻找最大值变得更加困难,并且最大似然并不比周围的其他点好,即参数估计误差很大。
κ ≈ ˚F′(X )≈ 甲˚F(x )
同样,我们仍然具有曲率和二阶导数关系。那么,费舍尔为什么不关注似然函数的曲率呢?我认为是出于方便的原因。由于总和而不是乘积,因此更容易操纵对数似然。因此,他可以通过分析对数似然的二阶导数来研究可能性的曲率。尽管方程对于曲率看起来非常简单,但实际上您正在乘积的二阶导数,该值比二阶导数之和更混乱。κ中号一个X= f′(x中号一个X)
更新2:
这是一个示范。我画了一个(完全组成的)似然函数,它的a)曲率和b)对数的二阶导数。在左侧,您看到的可能性很小,而在右侧,它的可能性很大。您将看到在最大似然a)和b)的点如何收敛。但是,更重要的是,您可以通过检查似然函数的对数似然的二阶导数来研究其宽度(或平坦度)。正如我之前所写,后者在技术上要比前者更简单。
不出所料,对数似然信号的二阶导数越深,似然函数越接近其最大值越平坦,这是不希望的,因为它会导致更大的参数估计误差。
如果要复制图,请使用MATLAB代码:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
更新3:
在上面的代码中,我将一些任意钟形函数插入曲率方程式,然后计算了其对数的二阶导数。我没有重新缩放任何东西,这些值直接来自方程式,以显示我之前提到的等效性。
这是费舍尔还在大学时发表的关于可能性的第一篇论文,“关于拟合频率曲线的绝对标准”,《数学使者》,第41期:155-160(1912年)。
正如我一直坚持的那样,他没有提到对数概率与熵和其他奇特主题之间的“更深层次”联系,他也没有提供信息标准。他只是简单地将等式放在第54页,然后继续讨论使概率最大化。我认为,这表明他将对数用作分析联合概率本身的便捷方法。它是在连续的曲线拟合,为此他给出了第55页的式明显特别有用:
好运分析该似然(或概率为每费舍尔)没有日志!日志P = ∫ ∞ - ∞登录˚F d X P日志P′= ∑ñ1个日志p
日志P= ∫∞- ∞日志FdX
P
在阅读本文时要注意的一件事,他只是从最大似然估计工作开始,并且在随后的10年中做了更多工作,据我所知,甚至还没有创造出MLE一词。