我对费舍尔的信息,度量的内容以及对它的帮助不满意。而且,它与Cramer-Rao界线的关系对我而言并不明显。
有人可以对这些概念进行直观的解释吗?
我对费舍尔的信息,度量的内容以及对它的帮助不满意。而且,它与Cramer-Rao界线的关系对我而言并不明显。
有人可以对这些概念进行直观的解释吗?
Answers:
在这里,我解释了为什么最大似然估计的渐近方差是Cramer-Rao下界。希望这将提供有关Fisher信息相关性的一些见解。
使用从数据构造的似然函数进行统计推断。点估计θ是最大化的值大号(θ )。估计θ是一个随机变量,但它有助于认识到似然函数大号(θ )是“随机曲线”。
在此,我们假设从分布提取iid数据,并定义似然 L(θ )= 1
参数具有使“真实”可能性E L(θ )的值最大化的特性。然而,由数据构成的“观察到的”似然函数L(θ )与真实似然略有“偏离”。但是,您可以想象,随着样本量的增加,“观察到”的可能性会收敛到真实可能性曲线的形状。这同样适用于所述似然度的衍生物相对于所述参数,分数函数∂ 大号/ ∂ θ。(长话短说,费舍尔信息决定了多快 观察到的得分函数收敛到真实得分函数的形状。)
在一个大的样本量,我们认为我们的最大似然估计θ非常接近θ。我们放大到周围的小邻居θ和θ使似然函数是“本地二次”。
还有是所述点得分函数∂ 大号/ ∂ θ相交的原点。在这个小区域中,我们将得分函数视为一条线,其斜率为a且 随机截距为b于θ。从一条线的方程式中我们知道
要么
根据MLE估计器的一致性,我们知道
在极限。
因此,渐近地
事实证明,斜率的变化远小于截距,并且渐近地,我们可以将分数函数视为在附近的小邻域中具有恒定的斜率。这样我们可以写
那么,和n V a r (b )的值是多少?事实证明,由于奇妙的数学巧合,它们是Fisher信息的相同量(以负号为模)。
从而,
渐近:Cramer-Rao下界。(证明1/I(θ)是无偏估计量方差的下限是另一回事。)
我理解渔民信息的一种方式是通过以下定义:
只要密度是两次可微的,就可以用这种方式编写Fisher信息。如果样本空间X不取决于参数θ,那么我们就可以使用莱布尼兹积分公式表明,第一项是零(区分两侧∫ X ˚F (X | θ )d X = 1两次,你会得到零),第二项是“标准”定义。我将以第一个项为零的情况为例。不为零的情况对于理解Fisher信息没有多大用处。
现在,当您进行最大似然估计时(在此处插入“规则性条件”),您可以进行设置
并求解。因此,二阶导数表示梯度变化的速度,从某种意义上说,θ可以偏离MLE的程度为“多远” ,而无需在上述等式的右侧进行明显的改变。您可以想到的另一种方法是想象在纸上绘制的“山”-这是对数似然函数。求解上面的MLE方程将告诉您,根据随机变量x,该山峰的峰值位于何处。二阶导数告诉您这座山有多陡峭-从某种意义上讲,它告诉您寻找这座山的顶峰有多么容易。Fisher信息来自于预期的峰值陡度,因此有点“数据前”的解释。
我仍然感到奇怪的是,它的对数似然度有多陡峭,而不是可能性的其他单调函数有多陡峭(也许与决策理论中的“适当”计分函数有关?或者与熵的一致性公理有关) ?)。
由于所谓的Laplace逼近,Fisher信息还会在许多渐近分析中“显示”。这基本上归因于一个“全面的”单一最大提高到一个更高的和更高的功率任何功能进入高斯函数的事实(类似于中心极限定理,但是稍微更普遍)。因此,当您有大量样本时,您可以有效地处于这一位置,并且可以编写:
当您选择扩展有关MLE的对数似然性时:
和对数似然的该二阶导数显示出来的(但在“观察”,而不是“预期”形式)。这里通常要做的是进一步近似:
这通常相当于用一个整数代替一个和,但是这要求数据是独立的。因此,对于较大的独立样本(给定),可以看到,对于MLE的各种值,Fisher信息是MLE的可变性。
这是我到目前为止看到的最直观的文章:
Cramér-Rao关于方差的下界:亚当和夏娃的“不确定性原理”,迈克尔·R·鲍尔斯(Michael R. Powers),《风险金融杂志》,第1卷。7,2006年第3期
用伊甸园中亚当和夏娃的类比来解释这一界限,他扔了一个硬币看谁吃了水果,然后他们问自己,为了达到一定的准确度,他们需要多少样本,然后他们发现了这个界限...
真实的故事,带有深刻的信息。