Answers:
实际上,它并不总是“起作用”的(从任何处总是通过法线总是提高二项式cdf的近似)。如果二项式为0.5,我认为它总是有帮助的,除了最极端的尾巴。如果距离0.5不太远,那么在较大的情况下,它通常会很好地起作用,除非在远尾,但如果接近0或1,则可能根本没有帮助(请参见下面的第6点)。p p Ñ p
要记住的一件事(尽管有插图,但几乎总是涉及pmfs和pdfs)是我们试图近似的是cdf。仔细考虑二项式的cdf和近似法线(例如,这里)发生了什么:
在极限情况下,标准化二项式的cdf将变为标准法线(请注意,标准化会影响x轴上的比例,而不影响y轴上的比例);沿途越来越大二项式CDF的跳跃往往更均匀地跨越正常CDF。
让我们在上面的简单示例中放大并查看:
请注意,由于近似法线通过接近垂直跳跃的中间*,而在极限范围内,法线cdf局部近似线性,并且(每次跳跃顶部的二项式cdf的变化也是如此);结果,cdf倾向于越过x + 1附近的水平台阶。如果要近似整数x的二项式cdfF(x)的值,则正常cdf会达到接近x+1的高度。
*如果将Berry-Esseen应用于均值校正的Bernoulli变量,则当接近1时,Berry-Esseen边界允许的摆动空间很小和x接近μ-正常cdf必须合理地接近跳跃的中间位置,因为否则cdfs的绝对差将超过一侧或另一侧的最佳Berry-Essen界限。这又与距x+1的距离有关正常cdf可以跨越二项式cdf的阶跃函数的水平部分。
扩展1.中的动机,让我们考虑如何使用二项式cdf的正态近似来计算。例如n = 20 ,p = 0.5 ,k = 9(请参见上面的第二张图)。因此我们的均值和sd相同的法线为N (10 ,(√。请注意,我们将通过正常cdf在大约8.5和9.5之间的变化来估算cdf在9处的跳跃。
框下的面积由之间的法线近似
可以使用推导(沿De Moivre方法行- 例如参见此处或此处)代数地激发这种方法,以推导法线逼近(尽管它可以比De Moivre方法更直接地执行)。
X X
因此,现在考虑对于二项式高度,我们对正常区域有一个中点规则近似值...也就是说,对于,中点规则说,从De Moivre得出。翻转大约。˚F (Ý + 1˚FÝ(X)≈P(X=X)P(X=X)≈˚F(X+1
[相似的“中点法则”类型逼近法可用于通过使用连续性校正来激发密度的其他此类连续pmfs逼近法,但必须始终谨慎注意调用该逼近法的意义。
历史记录:连续性校正似乎起源于1838年的Augustus de Morgan,是对De Moivre逼近的一种改进。参见,例如Hald(2007)[1]。根据Hald的描述,他的推理遵循上述第4项(即,实质上是通过用以x值为中心的宽度为1的“块”替换概率峰值来尝试近似pmf)。
连续性校正无济于事的情况说明:
[1]:Hald,Anders(2007),
“从伯努利到费舍尔的参数统计推断的历史,1713-1935年”,《
数学和物理科学史的资料来源和研究》,
纽约Springer-Verlag