我一直在想这个问题。我觉得它突然发生有点奇怪。基本上,为什么我们只需要三个均匀的就能平滑呢?为何平滑化如此迅速地进行?
:
:
(图像从John D. Cook的博客中无耻地被盗:http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/)
为什么不用四套制服?还是五个?要么...?
我一直在想这个问题。我觉得它突然发生有点奇怪。基本上,为什么我们只需要三个均匀的就能平滑呢?为何平滑化如此迅速地进行?
:
:
(图像从John D. Cook的博客中无耻地被盗:http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/)
为什么不用四套制服?还是五个?要么...?
Answers:
我们可以采取各种方法,其中某些方法对某些人似乎很直观,而对另一些人则不太直观。为了适应这种变化,此答案调查了几种这样的方法,涵盖了数学思想的主要划分-分析(无限和无限小),几何/拓扑(空间关系)和代数(符号操纵的形式模式)以及概率本身。最终得出的结论是将所有四种方法统一起来,证明这里有一个真正的问题需要回答,并确切说明问题所在。每种方法都以其自己的方式提供了对独立统一变量之和的概率分布函数形状的性质的更深入了解。
的统一分配有几个基本的描述。当具有这样的分布时,
的机会,在于可测量的集合甲只是度量(长度)甲∩ [ 0 ,1 ],写入| 甲∩ [ 0 ,1 ] | 。
由此可见,累积分布函数(CDF)是
的概率密度函数(PDF),其是衍生物CDF的,是为0 ≤ X ≤ 1和˚F X(X )= 0否则。(在0和1处未定义。)
任何随机变量X的特征函数(CF)是exp (i t X )的期望值(其中i是虚数单位,i 2 = − 1)。使用均匀分布的PDF,我们可以计算
该CF是一(版本)傅立叶变换的PDF,。关于傅立叶变换的最基本定理是:
自变量的总和的CF 是它们CF 的乘积。
当原始PDF 是连续的,X为界,˚F可以从CF恢复φ由傅立叶密切相关的版本变换,
当是可微数时,其导数可以用整数符号计算:
为了使这一点定义明确,最后一个积分必须绝对收敛。那是,
必须收敛到一个有限值。相反,当其收敛时,借助于这些反演公式,导数随处可见。
现在清楚地知道,对于统一变量之和,PDF的可区分性是多少:从第一个项目符号开始,iid变量之和的CF是其中一个变量的CF升至次方,这里等于。分子是有界的(由正弦波组成),而分母是。我们可以将这样的被乘数乘以 ,当时,它将仍然绝对收敛,而当时,将有条件地收敛。因此,重复应用第三个项目符号显示,均匀变量之和的PDF 将连续为Ñ 第(EXP (我吨)- 1 )ñ /(我吨)ñ ø (吨Ñ)吨小号小号< ñ - 1个小号= ñ - 1 ñ ñ - 2次可微,在大多数地方,它将是倍。
蓝色阴影曲线是同等变量之和的CF实部绝对值的对数对数图。红色虚线是渐近线。其斜率为,表明PDF的可微数为倍。作为参考,灰色曲线绘制了形状相似的高斯函数(常规PDF)的CF的实部。10 − 2 = 8
令和为独立的随机变量,其中具有一致的分布。考虑一个狭窄的区间,将的机会分解为足够接近该区间的机会乘以恰好大小的机会假设足够接近,则将放置在此间隔中:X X [ 0 ,1 ] (吨,吨+ d 吨] X + Ý ∈ (吨,吨+ d 吨] ý X X + ÿ ÿ
最终的相等性来自的PDF表达式。将两边除以d t并将极限值设为d t → 0得出
换句话说,加入统一的变量X对任何变量ý改变PDF ˚F ÿ到CDF求差˚F ý(吨)- ˚F Ý(吨- 1 )。因为PDF是CDF的派生,这意味着每次我们向Y添加一个独立的统一变量时,所得PDF的可比性是以前的一倍。
让我们从统一变量开始应用这种见解。原始PDF的0或1不可区分:在此处是不连续的。的PDF ý + X是不可微的,在0,1,或2,但它必须是在这些点连续的,因为它是PDF的积分的差ÿ。添加另一个独立变量均匀X 2:的PDF ÿ + X + X 2是可微的在0,1,2 和但不一定在这些点上具有二阶导数。等等。
在CDF 的总和的Ñ IID均匀个变量等于所述单元超立方体的体积[ 0 ,1 ] Ñ躺在半空间内X 1 + X 2 + ⋯ + X Ñ ≤ 吨。对于情况Ñ = 3个变量在此示出,用吨定在1 / 2,3 / 2,然后5 / 2。
当从0到n前进时,超平面H n(t ):x 1 + x 2 + ⋯ + x n = t与t = 0,t = 1 ,… ,t = n的顶点交叉。横截面的形状每次改变:在图中,它首先是一个三角形(2个单纯形),然后是一个六边形,然后又是一个三角形。 为什么PDF在这些值处没有急剧弯曲?
要理解这一点,首先考虑较小值。在此,超平面ħ Ñ(吨)切断的ñ - 1单纯形。单纯形的所有n - 1个维都与t成正比,而其“面积”则与t n - 1成正比。稍后将对此派上用场。假设θ为“单位步长函数”,
如果不是由于超立方体的其他角的存在,则该缩放将无限期地继续。单项的面积图看起来像下面的实心蓝色曲线:在负值处为零,等于t n − 1 /(n − 1 )!在正数处,可方便地写成θ (t )t n − 1 /(n − 1 )!。它的阶数为n − 2从意义上说,阶的所有导数都存在并且是连续的,但是n - 2阶的左右导数存在但在原点上不一致。
(在该图所示的其他的曲线是(红色), 3 θ (吨- 2 )(吨- 2 )2 / 2 !(金),和 - θ (吨- 3 )(吨- 3 )2 / 2 !(黑色)及其在的情况下的作用。ñ,将在下面进一步讨论。)
为了理解越过1时发生的情况,让我们详细研究n = 2的情况,其中所有几何都发生在一个平面中。我们可以将单位“立方体”(现在只是一个正方形)视为象限的线性组合,如下所示:
第一象限以灰色显示在左下方面板中。的值是1.5,则确定在所有五个面板中所示的对角线。CDF等于右图所示的黄色区域。黄色区域包括:
左下方面板中的三角形灰色区域,
减去左上方面板中的三角形绿色区域,
减去中下部面板中的三角形红色区域,
加上中间上方面板中的任何蓝色区域(但没有任何这样的区域,直到超过2为止也不会存在)。
这面积中的每一个都是三角形的面积。第一种鳞片状吨ñ = 吨2,接下来的两个是零吨< 1和否则缩放等(吨- 1 )ñ = (吨- 1 )2,最后是用于零吨< 2台否则秤像(t − 2 )n。此几何分析已确定CDF与θ ( = θ (吨)吨2 - 2 θ (吨- 1 )(吨- ; 等价地,PDF是正比于三个函数的总和 θ (吨)吨, - 2 θ (吨- 1 )(吨- 1 ),以及 θ (吨- 2 )(吨- 2 )(他们每个缩放的当 n =时线性)。的该图中示出了它们的图中的左侧面板:显然,它们是原始图形的所有版本 θ (吨)吨,但(a)将偏移 0, 1,和 2个单位通过重新缩放权和(b) 1, − 2和 1。
右面板显示了这些图的总和(实心黑色曲线,已标准化为具有单位面积:这恰好是原始问题中所示的具有角度的PDF。
现在,我们可以了解任何iid统一变量之和在PDF中“扭结”的性质。 它们都是完全一样发生在“扭结” 中的函数θ (吨)吨ñ - 1,可能重新缩放,并且转移到整数1 ,2 ,... ,Ñ相应于超平面ħ Ñ(吨)穿过超立方体的顶点。对于n = 2,这是方向上的可见变化:θ (t )的右导数在 0处为 0,而其左导数为 1。对于 n = 3,这是方向的连续变化,但是二阶导数是突然的(不连续)变化。对于一般 Ñ,会有通过顺序连续衍生物 ñ - 2,但在不连续 Ñ - 1个ST衍生物。
计算CF的积分,概率分析中条件概率的形式以及作为象限的线性组合的超立方体的综合都暗示着要恢复到原始的均匀分布,并将其重新表达为简单事物的线性组合。确实,其PDF可以编写
剩下的就是代数,因为二项式定理适用(就像实数上任何可交换代数一样):
中心极限定理在这里无话可说。毕竟,iid 二项式变量的总和收敛于正态分布,但该总和始终是离散的:它甚至根本没有PDF!我们不希望对CLT的PDF的“纽带”或其他可区分性度量有任何直觉。