Fisher信息与Cramer-Rao界的直观解释


59

我对费舍尔的信息,度量的内容以及对它的帮助不满意。而且,它与Cramer-Rao界线的关系对我而言并不明显。

有人可以对这些概念进行直观的解释吗?


1
有没有中什么维基百科的文章,这是造成问题?它测量的信息的量的可观察到的随机变量X用来携带关于未知参数θ在其的概率X取决于,其倒数为克拉美-罗下限的一个无偏估计的方差θ
亨利

2
我了解这一点,但我对此并不满意。就像,“信息量”在这里到底意味着什么。为什么对密度的偏导数平方的负期望测量该信息?表达式从何而来。这就是为什么我希望对此有所了解。
无限

@Infinity:分数是随参数变化而观察到的数据的似然性的比例变化率,因此对推断很有用。Fisher告知(零均值)分数的方差。因此,在数学上,它是密度对数的一阶偏导数的平方的期望,而对密度对数的二阶偏导数的期望的负也是如此。
亨利

Answers:


32

在这里,我解释了为什么最大似然估计的渐近方差是Cramer-Rao下界。希望这将提供有关Fisher信息相关性的一些见解。

使用从数据构造的似然函数进行统计推断。点估计θ是最大化的值大号θ 。估计θ是一个随机变量,但它有助于认识到似然函数大号θ 是“随机曲线”。L(θ)θ^L(θ)θ^ L(θ)

在此,我们假设从分布提取iid数据,并定义似然 Lθ = 1f(x|θ

L(θ)=1ni=1nlogf(xi|θ)

参数具有使“真实”可能性E Lθ 的值最大化的特性。然而,由数据构成的“观察到的”似然函数Lθ 与真实似然略有“偏离”。但是,您可以想象,随着样本量的增加,“观察到”的可能性会收敛到真实可能性曲线的形状。这同样适用于所述似然度的衍生物相对于所述参数,分数函数大号/θ。(长话短说,费舍尔信息决定了多快θEL(θ)L(θ) L/θ 观察到的得分函数收敛到真实得分函数的形状。)

在一个大的样本量,我们认为我们的最大似然估计θ非常接近θ。我们放大到周围的小邻居θθ使似然函数是“本地二次”。θ^θθθ^

还有是所述点得分函数大号/θ相交的原点。在这个小区域中,我们将得分函数视为一条线,其斜率为a随机截距为bθ。从一条线的方程式中我们知道θ^ L/θabθ

一种θ^-θ+b=0

要么

θ^=θ-b/一种

根据MLE估计器的一致性,我们知道

Ëθ^=θ

在极限。

因此,渐近地

ñV一种[Rθ^=ñV一种[Rb/一种

事实证明,斜率的变化远小于截距,并且渐近地,我们可以将分数函数视为在附近的小邻域中具有恒定的斜率。这样我们可以写θ

ñV一种[Rθ^=1个一种2ñV一种[Rb

那么,n V a r b 的值是多少?事实证明,由于奇妙的数学巧合,它们是Fisher信息的相同量(以负号为模)。一种ñV一种[Rb

-一种=Ë[-2大号θ2]=一世θ

ñV一种[Rb=ñV一种[R[大号θ]=一世θ

从而,

渐近:Cramer-Rao下界。(证明1/Iθ是无偏估计量方差的下限是另一回事。)

ñV一种[Rθ^=1个一种2ñV一种[Rb=1个/一世θ2一世θ=1个/一世θ
1个/一世θ

2
您提到似然函数是局部二次方的零件的图形表示吗?
quirik '17

@quirik,考虑使用围绕theta_hat的二阶泰勒展开式。
idnavid

@ charles.y.zheng这是场景中最有趣的解释之一。
idnavid

13

我理解渔民信息的一种方式是通过以下定义:

一世θ=X2FX|θθ2dX-XFX|θ2θ2日志[FX|θ]dX

只要密度是两次可微的,就可以用这种方式编写Fisher信息。如果样本空间X不取决于参数θ,那么我们就可以使用莱布尼兹积分公式表明,第一项是零(区分两侧X ˚F X | θ d X = 1两次,你会得到零),第二项是“标准”定义。我将以第一个项为零的情况为例。不为零的情况对于理解Fisher信息没有多大用处。FX|θXθXFX|θdX=1个

现在,当您进行最大似然估计时(在此处插入“规则性条件”),您可以进行设置

θ日志[FX|θ]=0

并求解。因此,二阶导数表示梯度变化的速度,从某种意义上说,θ可以偏离MLE的程度为“多远” ,而无需在上述等式的右侧进行明显的改变。您可以想到的另一种方法是想象在纸上绘制的“山”-这是对数似然函数。求解上面的MLE方程将告诉您,根据随机变量x,该山峰的峰值位于何处。二阶导数告诉您这座山有多陡峭-从某种意义上讲,它告诉您寻找这座山的顶峰有多么容易。Fisher信息来自于预期的峰值陡度,因此有点“数据前”的解释。θθX

我仍然感到奇怪的是,它的对数似然度有多陡峭,而不是可能性的其他单调函数有多陡峭(也许与决策理论中的“适当”计分函数有关?或者与熵的一致性公理有关) ?)。

由于所谓的Laplace逼近,Fisher信息还会在许多渐近分析中“显示”。这基本上归因于一个“全面的”单一最大提高到一个更高的和更高的功率任何功能进入高斯函数的事实(类似于中心极限定理,但是稍微更普遍)。因此,当您有大量样本时,您可以有效地处于这一位置,并且可以编写:经验值-一种X2

f(data|θ)=exp(log[f(data|θ)]

当您选择扩展有关MLE的对数似然性时:

和对数似然的该二阶导数显示出来的(但在“观察”,而不是“预期”形式)。这里通常要做的是进一步近似:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

这通常相当于用一个整数代替一个和,但是这要求数据是独立的。因此,对于较大的独立样本(给定),可以看到,对于MLE的各种值,Fisher信息是MLE的可变性。θ


1
“我仍然感到好奇的是,它的对数似然有多陡峭,而不是似然的其他单调函数有多陡峭。” 我敢肯定,您可以通过其他可能性的转换来推导Fisher信息的类似物,但是对于Cramer-Rao下界,您将得不到那么整洁的表达。
charles.y.zheng 2011年

2

这是我到目前为止看到的最直观的文章:

Cramér-Rao关于方差的下界:亚当和夏娃的“不确定性原理”,迈克尔·R·鲍尔斯(Michael R. Powers),《风险金融杂志》,第1卷。7,2006年第3期

用伊甸园中亚当和夏娃的类比来解释这一界限,他扔了一个硬币看谁吃了水果,然后他们问自己,为了达到一定的准确度,他们需要多少样本,然后他们发现了这个界限...

真实的故事,带有深刻的信息。


6
感谢您发布此参考。最后,我很失望地发现它并没有真正解释CRLB。它只是陈述了它,而没有提供任何关于它为什么是真实的见解,并且仅仅提供了一些令人回味却最终毫无意义的语言,例如“挤压信息”,以试图解释它。
ub

@whuber:公平地说,我同意它可以跳得更深,结局有些突然。但是我喜欢这篇文章的是,在样本大小,样本均值,大数定律之间存在联系,而且样本方差只能减少到一定程度,这似乎是很自然的事情(即必须一定范围,恰好是上述范围)。这也清楚地表明,这不是一些难以捉摸的数学结果,而是关于获得现实知识的极限的陈述。
2016年

2

尽管上面提供的解释非常有趣,而且我很喜欢遍历它们,但我觉得从几何角度最好向我解释Cramer-Rao下界的性质。这种直觉是Scharf关于统计信号处理的书第6章中浓度椭圆概念的总结。

θθ^Σθ^

Fθ^经验值-1个2θ^-θŤΣ-1个θ^-θ

θ[R2θ^Fθ^dθP[Rθ[R[RP[Rθ^θrPr

θ^crlbΣcrlbPr

在无偏估计量的背景下CRLB的2D图。


2
好吧,这真是太好了,尤其是图像,需要更多投票。
阿斯特丽德
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.