正态近似于均匀和分布的误差
一种近似于正态分布的幼稚方法是将大约均匀分布在上的IID随机变量加在一起,然后根据中心极限定理对它们进行重新缩放和重新缩放。(旁注:还有更精确的方法,例如Box-Muller变换。)IID随机变量的总和称为均匀总和分布或Irwin-Hall分布。100100100[0,1][0,1][0,1]U(0,1)U(0,1)U(0,1) 用正态分布近似均匀和分布时的误差有多大? 每当出现这种类型的问题以近似IID随机变量的总和时,人们(包括我)都会提出Berry–Esseen定理,这是中心极限定理的有效形式,因为存在第三阶矩: |Fn(x)−Φ(x)|≤Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} 其中是n个 IID随机变量的重新定标和的累积分布函数,\ rho是绝对的第三中心矩E |(X-EX)^ 3 |。,\ sigma是标准偏差,C是绝对常数,可以取为1甚至1/2。FnFnF_nnnnρρ\rhoE|(X−EX)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111/21/21/2 这是不令人满意的。在我看来,对于离散的二项式分布,Berry-Esseen估计最接近锐利,对于对称的二项式分布,最大误差为000。最大的错误来自最大的跳跃。但是,统一的总和分布没有跳跃。 数值测试表明,误差的减小比c / \ sqrt n更快c/n−−√c/nc/\sqrt n。 使用C=1/2C=1/2C=1/2,Berry–Esseen估计为|Fn(x)−Φ(x)|≤12132112√3n−−√≈0.650n−−√|Fn(x)−Φ(x)|≤121321123n≈0.650n|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n} 这对于n=10,20,40n=10,20,40n=10,20,40为约0.2050.2050.205,0.1450.1450.145,和0.1030.1030.103,分别。对于实际的最大差异n=10,20,40n=10,20,40n=10, 20, 40似乎是约0.002810.002810.00281,0.001390.001390.00139和0.0006920.0006920.000692,分别,这要小得多,并且似乎落入如c/nc/nc/n,而不是c/n−−√c/nc/\sqrt n。