正态近似于均匀和分布的误差


20

一种近似于正态分布的幼稚方法是将大约均匀分布在上的IID随机变量加在一起,然后根据中心极限定理对它们进行重新缩放和重新缩放。(旁注:还有更精确的方法,例如Box-Muller变换。)IID随机变量的总和称为均匀总和分布或Irwin-Hall分布100[0,1]U(0,1)

用正态分布近似均匀和分布时的误差有多大?

每当出现这种类型的问题以近似IID随机变量的总和时,人们(包括我)都会提出Berry–Esseen定理,这是中心极限定理的有效形式,因为存在第三矩:

|Fn(x)Φ(x)|Cρσ3n

其中是n个 IID随机变量的重新定标和的累积分布函数,\ rho是绝对的第三中心矩E |(X-EX)^ 3 |。\ sigma是标准偏差,C是绝对常数,可以取为1甚至1/2FnnρE|(XEX)3|σC11/2

这是不令人满意的。在我看来,对于离散的二​​项式分布,Berry-Esseen估计最接近锐利,对于对称的二项式分布,最大误差为0。最大的错误来自最大的跳跃。但是,统一的总和分布没有跳跃。

数值测试表明,误差的减小比c / \ sqrt n更快c/n

使用C=1/2,Berry–Esseen估计为

|Fn(x)Φ(x)|121321123n0.650n

这对于n=10,20,40为约0.2050.145,和0.103,分别。对于实际的最大差异n=10,20,40似乎是约0.002810.001390.000692,分别,这要小得多,并且似乎落入如c/n,而不是c/n


7
如果在Edgeworth展开中展开总和的分布,则会发现在均匀由于(因为均匀分布是对称的),所以听起来大约是正确的。由于中来看,这不会给你一个绑定虽然...Fn(x)=Φ(x)+n1g(x)+o(n1)xnc/no(n1)
MånsT

1
谢谢,这似乎也解释了许多其他发行版的模式。c/n
道格拉斯·扎里

Answers:


17

令为iid随机变量,并考虑归一化和 以及相关的规范 其中是的分布。U1,U2,U(b,b)

Sn=3i=1nUibn,
sup
δn=supxR|Fn(x)Φ(x)|,
FnSn

引理1Uspensky):上的以下约束成立。 δn

δn<17.5πn+1π(2π)n+12π3nexp(π2n/24).

证明。参见《乌斯别斯基合资企业》(1937年),《数学概率导论》,纽约:麦格劳-希尔出版社,p。。305。

后来R. Sherman将其改进为以下内容。

引理2Sherman):对Uspensky界的以下改进。

δn<17.5πn(π180+17.5πn)eπ2n/24+1(n+1)π(2π)n+12π3neπ2n/24.

证明:见R.Sherman,N个随机变量之和的正态近似误差Biometrika,vol。58号 2,396–398。

该证明非常简单地应用了三角形不等式和经典边界在正态分布尾部以及应用于的两个分布的特征函数。(sinx)/x


2
+1是引理2中的吗?N=n

@拖延者:好收获。
主教

1
谢谢!这些参考资料非常有帮助。估计值似乎在实际值的倍以内。2
道格拉斯·扎里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.