样本中位数的中心极限定理


54

如果我从相同分布中计算出足够多的观测值的中位数,那么中心极限定理是否规定中位数的分布将近似于正态分布?我的理解是,对于大量样本而言,这是正确的,但对于中位数也是如此?

如果不是,样本中位数的基本分布是什么?


9
您需要一些规律性条件,以便在限制中重新缩放后,中位数将具有正态分布。要查看可能出问题的地方,请考虑在有限数量的点上进行任何分布,例如上的均匀。{ - 1 0 1 }X{1,0,1}
红衣主教

5
关于正则条件:如果基础分布的密度在(真实)中位数处是可微的,则样本中位数将具有渐近正态分布,其方差取决于所述导数。这通常适用于任意分位数。
主教

6
@cardinal我认为您还需要其他条件:当密度是可二阶微分的,在中位数等于零,并且那里的一阶导数为零时,则样本中位数的渐近分布将是双峰的。
ub

4
@whuber:是的,因为密度(不是我之前无意中提到的其导数)作为倒数进入方差,因此该点的密度值不能为零。很抱歉放弃该条件!
主教

4
可以使用将概率分配给间隔和概率分配给任何分布来创建基本反例其中例如伯努利()。样品中位数将小于或等于,因为他们经常是大于或等于。对于大样本,中位数不在中的几率接近,实际上在留下了“缺口”- μ ] 1 / 2 [ μ + δ δ > 0 1 / 2 μ = 0 δ = 1 μ1/2(,μ]1/2[μ+δ,)δ>0,(1/2)μ=0,δ=1μμ μ + δ 0 μ μ + δ μ+δ(μ,μ+δ)0(μ,μ+δ)在极限分布中-无论如何标准化,显然这将是非正态的。
ub

Answers:


38

如果您根据指标变量工作(即,如果则,否则为),则可以将Central limit定理直接应用于的均值,然后使用Delta方法将其转化为渐近正态分布,这反过来又意味着你获得的固定位数渐近正态。Zi=1Xix0ZFX1(Z¯)X

因此,不仅是中位数,而且还有四分位数,第90个百分位数,等等。

松散地讲,如果我们在足够大的样本中讨论第个样本分位数,我们将得出它大致具有正态分布,均值是第个总体分位数和方差。qqxqq(1q)/(nfX(xq)2)

因此,对于中位数(),足够大的样本中的方差将约为。q=1/21/(4nfX(μ~)2)

当然,您需要沿途保持所有条件,因此它并非在所有情况下都有效,但对于总体分布中密度为正且可微的连续分布等,...

此外,它不适用于极端分位数,因为CLT不会在那里出现(Z的平均值不会渐近正常)。您需要不同的理论来获取极致价值。


编辑:胡布的批评是正确的;如果是总体中位数而不是样本中位数,这将起作用。该参数需要修改才能真正正常工作。x


5
我认为可能缺少这一解释的逻辑部分:一个人究竟如何使用指标来获取样本中位数?我可以看到是基础中位数时,指标将起作用:但是该指标与样本中位数或其任何函数都不匹配。X XxXix
ub

您如何从渐近正态分布中得到固定X分位数的渐近正态性?编辑:我知道了,变为百分比值0-100%,因此分位数值渐近正常¯ žFX1(Z¯)Z¯
亚当(Adam)2014年

48

关键思想是,中位数的抽样分布就分布函数而言很容易表达,而就中位数而言则更为复杂。一旦我们了解了分布函数如何将值重新表达为概率并再次返回,就很容易得出中位数的精确采样分布。需要对分布函数在其中位数附近的行为进行一些分析,以表明这是渐近正态的。

(相同的分析适用于任何分位数的采样分布,而不仅仅是中位数。)

在这个博览会上,我将不做任何严谨的尝试,但如果您愿意的话,我会按照严格的步骤进行合理地执行。


直觉

这些是装有70个热原子气体原子的盒子的快照:

图1

在每个图像中,我都找到了一个位置,显示为红色垂直线,该位置将原子分成两个相等的组,分别位于左侧(绘制为黑点)和右侧(白点)之间。这是位置的中位数:35个原子位于其左侧,而35个位于其右侧。中位数发生变化是因为原子在盒子周围随机移动。

我们对这个中间位置的分布很感兴趣。通过反转我的过程可以回答这个问题:让我们先在某处画一条垂直线,例如位置。一半原子在的左侧,一半原子在其右侧的机会是什么?左边的原子分别有机会在左边。右边的原子分别有机会在右边。假设它们的位置在统计上是独立的,则该几率相乘,从而得到的特定配置几率。将原子分成两个原子,可以获得等效的构型x x 1 x x 351 x 35 70 35xxx1xx35(1x)357035元素块。将这些数字添加到所有可能的拆分中,可以

Pr(x is a median)=Cxn/2(1x)n/2

其中是原子总数,与原子分裂成两个相等子组的数量成正比。ç ñnCn

该公式将中位数的分布标识为Beta分布(n/2+1,n/2+1)

现在考虑一个形状更复杂的盒子:

图2

中位数再次变化。由于箱子是中心附近低,没有太多的体积那里:在一个小的变化由原子的左半部分占据(黑字再次) -或者,我们不妨承认,该区域为在这些图中所示的左-对应于相对大的变化水平的位置的位数。实际上,由于盒子的水平小部分所占的面积与那里的高度成比例,所以中位数的变化除以盒子的高度。这导致此框的中位数比方框的可变性更大,因为此框的中位数要低得多。

简而言之,当我们根据面积(左右)测量中位数的位置时,原始分析(对于方盒)保持不变。 如果我们坚持要根据水平位置测量中位数,则盒子的形状只会使分布复杂化。当我们这样做时,面积和位置表示之间的关系与盒子的高度成反比。

从这些图片中可以学到更多。显然,当(两个)盒子中的原子很少时,它们中的一半更有可能意外地成簇地聚集到任一侧。随着原子数的增加,这种极端不平衡的可能性降低。为了对此进行跟踪,我对一系列由5000个帧组成的弯曲框进行了“电影”处理,该框填充了,然后填充了,然后填充了,最后填充了原子,并记录了中间值。以下是中位数排名的直方图:15 75 37531575375

图3

显然,对于足够多的原子,它们的中位位置分布开始看起来呈钟形并逐渐变窄:这看起来像是一个中心极限定理,不是吗?


定量结果

当然,“方框”描述了某种分布的概率密度:其顶部是密度函数(PDF)的图形。因此,区域代表概率。将个点随机独立地放置在一个盒子中并观察其水平位置是从分布中抽取样本的一种方法。(这是剔除采样背后的想法n

下图将这些想法联系起来。

图4

这看起来很复杂,但实际上非常简单。这里有四个相关的图:

  1. 顶部的图显示了分布的PDF以及一个大小为随机样本。大于中位数的值显示为白点;值小于中位数的黑点。它不需要垂直刻度,因为我们知道总面积是统一的。n

  2. 中间图是相同分布的累积分布函数:它使用高度表示概率。它与第一个图共享其水平轴。它的垂直轴必须从到因为它表示概率。101

  3. 左侧图意为横向读取:它是Beta分布的PDF 。它显示了当以中间位置左右两侧的面积(而不是通过其水平位置进行测量)来测量中间值时,框中的中间值将如何变化。如图所示,我已经从该PDF中绘制了随机点,并用水平虚线将它们连接到原始CDF上的相应位置:这是将体积(在左侧测量)转换为位置(在顶部,中间测量)的方式和底部图形)。这些点之一实际上对应于顶部图中显示的中位数;我画了一条实线来显示这一点。16(n/2+1,n/2+1)16

  4. 底部图是中位数的采样密度,以其水平位置测量。 通过将面积(在左图中)转换为位置获得。转换公式由原始CDF的逆给出:这仅仅是CDF逆的定义!(换句话说,CDF将位置转换为左侧的区域;逆CDF将区域转换为左侧的位置。)我绘制了垂直虚线,显示了左侧绘图中的随机点如何转换为底部绘图中的随机点。 。这种从头到尾阅读的过程告诉我们如何从区域到位置。

让是原始分配的CDF(中图)和 Beta分布的CDF。要找到中位数位于某个位置左侧的机会,请首先使用获取框中左侧的面积:这是本身。左边的Beta分布告诉我们一半原子位于该体积内的机会,从而得出:这是中位位置的CDF 。要找到其PDF(如底部图所示),请采用导数:g ^FGF x F x G F x xFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

其中是PDF(上图),是Beta PDF(左图)。g ^fg

这是一个精确的位数的分配式为任何连续分布。(在解释时要格外小心,它可以应用于任何分布,无论是否连续。)


渐近结果

当非常大且在其中位数处没有跳跃时,样本中位数必须在分布的真实中位数周围紧密变化。 还假设PDF是接近连续在前述式将不会从它的在值太大变化由下式给出 此外,不会有太大的它的价值有两种变化:第一顺序,˚F μnFμμfμ μ ˚F μ Ff(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

因此,随着增大,近似值不断提高,n

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

那仅仅是Beta分布位置和规模的转变。用重新缩放将其方差除以(最好是非零!)。顺便提及,Beta的方差非常接近。f μ 2f(μ)f(μ)2ñ / 4(n/2+1,n/2+1)n/4

可以将这种分析视为Delta方法的一种应用。

最后,对于大,Beta近似于Normal 。有很多方法可以看到这种情况。也许最简单的方法是查看其附近的PDF的对数:ñ 1 / 2(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(常数和仅将总面积归一化。)然后,通过三阶,与方差为的Normal PDF的对数相同 (通过使用特征或累积量生成函数而不是PDF的日志,使该参数变得严格。)C X 1 /4 Ñ Cx,1/(4n).

综上所述,我们得出的结论是

  • 样本中位数的分布具有大约方差。1/(4nf(μ)2)

  • 对于大的,它大约是Normal。n

  • 只要PDF是连续的且在中位数非零即可μ fμ.


我喜欢那个第四个数字。您使用R做到了吗?
EngrStudent 2014年

@Engr我可能已经在做一个喜欢它R,可能使用layout,但实际上它与做数学 9
whuber

1
'这是一件美丽的事情。
EngrStudent 2014年

@whuber不是Beta(1,1)之前的Beta(n / 2 + 1,n / 2 + 1)吗?参见例如ine.pt/revstat/pdf/rs080204.pdf
蒂姆

1
@Tim我不了解该引用与先前版本的相关性,但是我非常感谢您指出,在“直觉”部分中标识的Beta发行版的正确名称是Beta。无论发生在哪里,我都会修复它(在讨论中的几个地方)。(n/2+1,n/2+1)
whuber

18

@EngrStudent的有启发性的答案告诉我们,当分布是连续的并且是离散的时,我们应该期望得到不同的结果(“红色”图,样本中位数的渐近分布明显无法看起来像正态,对应于二项分布) (3),几何(11),超几何(12),负二项式(14),泊松(18),离散均匀(22)。

的确如此。当分布是离散的时,事情就会变得复杂。我将提供绝对连续案例的证明,本质上仅是详细说明@Glen_b已经给出的答案,然后我将讨论分布离散的情况,还会为有兴趣潜水的任何人提供最新参考在。

绝对连续分布
考虑具有分布函数(cdf)和密度函数的iid绝对连续随机变量。定义,其中是指标函数。因此是一个Bernoulli rv,其中 {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}X } Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

让是这些独立同分布伯努利的样本均值,对于固定定义为 这意味着 中心极限定理,Yn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

注意,即除经验分布函数以外的值。通过应用“ Delta方法”,我们得到了一个在感兴趣点具有非零导数的连续可微函数,我们得到Yn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

现在,选择,其中表示反函数。这是一个连续且可微的函数(因为 是),根据逆函数定理,我们拥有g(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

将这些结果插入到中,我们可以得到由增量方法得出的渐近结果g

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

并简化,

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

..对于任何固定。现在设置,即人口的(真实)中位数。那么我们有,对于我们感兴趣的情况,上面的一般结果变为xx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

但是收敛到样本中位数。这是因为FX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

不等式的右侧收敛为,最小的最终为,它是样本中位数。1/2xFX1/2

所以我们得到

n(m^m)dN(0,1[2fx(m)]2)
这是中央绝对连续分布的样本中位数的极限定理。

离散分布
当分布是离散的(或样本包含联系)时,有人认为样本分位数以及中位数的“经典”定义首先可能会误导人,因为理论上的观点是用于测量要用分位数测量的内容。
在任何情况下,都可以模拟得出,在这种经典定义下(众所周知),样本中位数的渐近分布是非正态分布和离散分布。

样本分位数的另一种定义是使用“中间分布”函数的概念,该函数定义为

Fmid(x)=P(Xx)12P(X=x)

通过中间分布函数的概念对样本分位数的定义可以看作是一种概括,可以将连续分布作为特殊情况涵盖,但也可以涵盖非连续分布。

对于离散分布的情况,除其他结果外,已发现通过此概念定义的样本中位数具有渐近正态分布,并具有精细的方差。

其中大多数是近期结果。参考文献是Ma,Y.,Genton,MG和Parzen,E.(2011)。离散分布的样本分位数的渐近性质。统计数学研究所年鉴,63(2),227-243。,在这里可以找到讨论并链接到较早的相关文献。


2
(+1)为文章。这是一个很好的答案。
亚历克斯·威廉姆斯

您能解释一下为什么收敛到样本中位数吗?FX1(F^n(m))m^
卡萨

我知道在分布中,但是我看不到样本中值如何等于F^n(m)FX(m)m^FX1(F^n(m))
kasa

1
@kasa我对此事做了详细说明。
Alecos Papadopoulos

很抱歉再次提出这个问题:但是最终的最小是总体中位数,而不是样本中位数,不是吗?xFX(x)1/2
卡萨

10

是的,不仅是中位数,还包括任何样本分位数。从复制 本文,通过TS弗格森,加州大学洛杉矶分校的教授(他的网页是写在这里),它与有趣的样本均值和样本位数的联合销售协议,我们有:

让具有分布函数,密度,均值和有限方差。令且表示的个分位数,因此。假设密度是连续的,并且在处为。令表示样本分位数。然后X1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

对于(中位数),并且您有中位数的CLT,p=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)

1
真好 值得一提的是,样本中位数的方差不像样本均值那样容易估计。
Michael M

@Alecos-您如何获得此问题的两个答案?
EngrStudent

1
@EngrStudent系统允许它,它只是询问您是否确实要添加第二个答案。
Alecos Papadopoulos

8

我喜欢Glen_b给出的分析性答案。这是一个很好的答案。

它需要一张照片。我喜欢图片。

这是该问题的答案的弹性范围:

  • 世界上有很多发行。里程可能会有所不同。
  • 足够具有不同的含义。对于理论的反例,有时需要一个反例来满足“足够”。为了使用二项式不确定度证明低缺陷率,可能需要数百或数千个样本。

对于标准法线,我使用了以下MatLab代码:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

我得到以下图作为输出:

在此处输入图片说明

那么,为什么不对其他22个左右的“内置”分布而不是使用概率图(直线表示非常法线)呢?

在此处输入图片说明

这是它的源代码:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

当我看到分析证明时,我可能会认为“理论上它们都可能适合”,但是当我尝试一下时,我可以用“很多方法都不能很好地解决这一问题,这常常涉及离散或高度受限”值”,这可能会让我想更谨慎地将理论应用到任何要花钱的事物上。

祝好运。


我是错误的还是中位数不是正态分布的分布是离散的?
SeF
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.