二项式Fisher信息与成反比的直观原因

12

它使二项式的方差与成正比，这使我感到困惑/不高兴。等效地，Fisher信息与成正比。这是什么原因呢？为什么在将Fisher信息最小化？也就是说，为什么在推理最困难？ $p(1-p)$ $\frac{1}{p(1-p)}$ $p=0.5$ $p=0.5$

内容：

我正在使用样本量计算器，并且的公式（所需的样本量）是的增加因子，这是推导中方差估计的结果。 $N$ $p(1-p)$

variance binomial interpretation

— 戴维森·皮隆
source

3

一个的方差伯努利与参数随机变量是和二项式随机变量，是总和独立伯努利随机变量，具有方差它是的总和方差。关于为什么，将方差视为分别在和处围绕质心和的质心的惯性矩。

p

$p$

p (1 - p)

$p(1-p)$

N

$N$

N p (1 - p)

$Np(1-p)$

N

$N$

p (1 - p)

$p(1-p)$

p

$p$

1 - p

$1-p$

1

$1$

0

$0$

— Dilip Sarwate 2013年

是的，我说成比例的，忽略。您能否详细介绍第二部分，这似乎是一个有趣的观点。

p (1 - p)

$p(1-p)$

N

$N$

— Cam.Davidson.Pilon 2013年

13

以直观的方式看到方差在最大，则等于（）。然后，来自的样本可能包含多个（分别为）和几个（分别为）。那里没有太多变化。 $p = 0.5$ $p$ $0.99$ $p = 0.01$ $X \sim \text{Bernoulli}(p)$ $1$ $0$ $0$ $1$

— 奥克拉姆
source

确实如此。也许我应该问的是，为什么将Fisher信息最小化为？ $p=0.5$ ，即为什么在推理最困难？我将更新问题以反映这一点。

p = 0.5

$p=0.5$

— Cam.Davidson.Pilon 2013年

3

再次以非常直观的方式进行：变化越多，您需要的信息就越多。

— ocram 2013年

9

对于中间的 '，推断是“困难的” ，因为中间有的样本与更大的范围一致。在端点附近，距离不能太远-因为端点是不能跨越的“障碍” 。 $p$ $\hat p$ $p$ $p$

我认为，以方差来看，直觉更容易。

关于二项式的方差在中间较大而在末端较小的直觉非常简单：在端点附近，没有空间可以“散布”数据。考虑小-因为均值接近于0，所以变化不能太大-对于要平均的数据，它只能与均值相差太远。 $p$ $p$

让我们考虑一系列伯努利试验中样本比例的方差。这里。因此，将固定并改变，对于在0附近，其变化要小得多： $\text{Var}(\hat p) = p(1-p)/n$ $n$ $p$ $p$

二项式样本中的样本比例-这里只是随机均匀的；蓝色表示平均数为0.03，黑色表示平均数为0.5（增加了一些抖动，因此点不会堆积太多并丢失细节） $y$ 在此处输入图片说明

相应的概率函数：在此处输入图片说明

在每种情况下，请注意标记均值的线。随着平均线变得更加“挤满”了障碍物，低于平均线的点只能跌破一点。

结果，高于均值的点通常不能超出均值太高（因为否则均值会偏移！）。在，端点并没有像障碍物那样真正地“推动”它。 $p = \frac{1}{2}$

在此处输入图片说明

我们同时看到了为什么分配必须在末端倾斜。为了使随机变量在某些时候甚至比平均值高出以上，必须相应地有尽可能多的概率压低到低于平均值。在0处隐约可见的障碍既限制了可变性，又导致了偏度。 $\hat p$ $p$

[这种直觉形式并没有告诉我们为什么要采用这种精确的功能形式，但是它确实说明了为什么方差必须在端部附近变小，而在端部附近变小。]

— Glen_b-恢复莫妮卡
source

结果，高于均值的点通常不能超出均值太高（因为否则均值会偏移！）。接近p = 12时，端点实际上并没有以相同的方式“推动”端点。 太完美了。这是一个很好的解释。

— Cam.Davidson.Pilon

7

Fisher信息是得分函数的方差。它与熵有关。对于伯努利审判，每次审判都得到一分。因此，正如我们所期望的，此Fisher信息具有与Shannon熵类似的属性。特别是，熵的最大值为1/2，信息的最小值为1/2。

— 詹姆士
source

啊，另一个很棒的观点。从熵的角度来看，我还没有想到这一点！

— Cam.Davidson.Pilon