对于什么(对称)分布,样本意味着比样本中位数更有效的估计器?


17

我一直认为,样本中位数比样本均值对集中趋势的度量更为可靠,因为它忽略了离群值。因此,我很惊讶地得知(在另一个问题中),对于从正态分布中抽取的样本,样本均值的方差小于样本中位数的方差(至少对于大)。ñ

我从数学上理解为什么这是真的。有没有一种“哲学的”方式看待这一点,从而有助于直觉何时使用中位数而不是其他分布的均值?

是否有数学工具可以帮助快速回答特定分布的问题?

Answers:


20

假设我们将考虑范围限制为均值和方差有限的对称分布(因此,例如考虑了柯西)。

此外,我将首先将自己限制为连续的单峰情况,实际上主要是“好”情况(尽管我可能稍后再讨论其他一些情况)。

相对方差取决于样本量。讨论渐近方差的比率(倍)是很常见的,但是我们应该记住,在较小的样本量下,情况会有所不同。(中位数有时确实比其渐近行为所暗示的更好或更差。例如,在n = 3的法线下,其效率约为74%,而不是63%。通常,渐近行为在相当适度的情况下是一个很好的指南样本量。)nn=3

渐近性很容易处理:

平均数:方差= σ 2n×σ2

中位数方差= 1n×,其中fm是中位数处的密度高度。1[4f(m)2]f(m)

所以如果,中值将是渐近更有效。f(m)>12σ

[在正常情况下,,所以1f(m)=12πσ,渐近相对效率2/π)]1[4f(m)2]=πσ222/π

我们可以看到,中位数的方差将取决于非常靠近中心的密度的行为,而均值的方差则取决于原始分布的方差(在某种意义上,该分布受各处的密度影响,并且特别是,它的行为方式更远离中心)

这就是说,虽然中位数受异常值的影响要小于平均值,但我们经常会看到,当分布的尾部很重时(它会产生更多的异常值),其方差比平均值低,这实际上驱动了性能的提高。中位数是Inliers。经常会发生这样的情况(对于固定的方差),两者倾向于并存。

也就是说,从广义上讲,作为尾部变重,有一个趋势(在一个固定值)分配得到“峰值”在同一时间(更kurtotic,在严格的意义上)。但是,这并不是确定的事情-在广泛的常用密度范围内往往会出现这种情况,但并非总是如此。当它成立时,中间的差额将减少(因为分布在正中的近邻更多的可能性),而平均的方差保持不变(因为我们固定σ 2)。σ2σ2

因此,在各种常见情况下,当尾巴较重时,中位数往往会比平均值更“好”(但我们必须记住,构造反例相对容易)。因此,我们可以考虑一些情况,这些情况可以向我们展示我们经常看到的情况,但是我们不应该对它们进行过多阅读,因为较重的尾部通常不会出现较高的峰。

我们知道,中位数的效率(对于大)约为正常值的平均值的63.7%。n

可以说,逻辑分布,类似于正态分布在中心附近呈抛物线形,但尾部较重(随着变大,它们将成指数分布)。x

如果我们把标度参数为1,物流具有方差和高度以1/4的中位数,所以1π2/3。方差的比率然后π2/120.82那么大样品中,中值大约是82%的效率是平均值。14f(m)2=4π2/120.82

让我们考虑另外两个密度,它们的尾部呈指数状,但峰度不同。

首先,双曲正割()分布sech,其标准形式的方差为1,高度为1的中心,因此渐进方差的比率为1(在大样本中,两者的效率相同)。但是,在小样本中,平均值更为有效(例如,当n=5时,其方差约为中位数方差的95%)。12n=5

在这里,我们可以看到,随着我们通过这三种密度(保持方差恒定)的进展,中间值的高度如何增加:

在此处输入图片说明

我们可以提高它吗?确实可以。考虑例如double指数。标准形式的方差为2,中位数的高度为(因此,如果我们按图中的比例缩放到单位方差,则峰值为112,刚好高于0.7)。中位数的渐近方差是平均值的一半。12

如果我们在给定的方差下使分布的峰值更加平稳(也许通过使尾部比指数重),那么中值仍然可以(相对而言)高效得多。峰值可以达到的高度实际上没有任何限制。

ν=5

...

在有限的样本量下,有时可以显式计算中位数分布的方差。在不可行甚至不方便的地方,我们可以使用仿真来计算从分布中抽取的随机样本的中位数方差(或方差比*)(这是我为得到上面的小样本数据所做的工作) )。

*尽管我们通常实际上实际上不需要均值的方差,但是由于我们可以在知道分布方差的情况下进行计算,因此这样做可能会更有效地进行计算,因为它的作用类似于控制变量(均值和中位数通常是非常相关的)。


1

如果有较重的尾巴,则中位数通常会比均值更好,而对于较轻的尾巴,均值将最好。一个有趣的具体示例是 密度函数为 的双指数(或Laplace)分布https://en.wikipedia.org/wiki/Laplace_distribution

f(x=1个2Ë-|X-μ|-<X<
μX1个X2Xñ2/ñ1个4ñFμ2=1个4ñ/4=1个/ñ<2/ñ

σ2=1个1个/ññ1个4ñ1个/2π2=π2ñ1.57/ñ>1个/ñ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.