安迪·菲尔兹(Andy Fields)等人在使用R发现统计信息的第1.7.2节中列出了均值与中位数的优点,同时指出:
...平均值在不同样本中趋于稳定。
在解释了中位数的许多优点之后,例如
...中位数不受分布两端的极端得分的影响...
鉴于中位数相对不受极端得分的影响,我认为它在各个样本中都更加稳定。因此,我对作者的主张感到困惑。为了确认我进行了模拟,我生成了1M个随机数,并采样了100个数字1000次,计算了每个样本的均值和中位数,然后计算了这些样本均值和中位数的sd。
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
如您所见,均值比中位数分布更紧密。
在所附的图像中,红色直方图是中位数-如您所见,它的身高较小,尾巴较胖,这也证实了作者的主张。
不过,我对此感到惊讶!中位数哪个更稳定,最终在样本之间往往会有更大的变化?看来很矛盾!任何见解将不胜感激。
rnorm
为rcauchy
。