中位数的标准误


14

如果我想在非正态分布的小样本(我正在使用python)的情况下测量中位数的标准误差,以下公式正确吗?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Answers:


12

基于@mary的一些评论,我认为以下是适当的。她似乎选择了中位数,因为样本很小。

如果您选择中位数是因为这是一个很小的样本,那不是一个很好的理由。选择中位数是因为中位数是一个重要值。它说的与平均值不同。您可能还会选择它进行某些统计计算,因为它对于某些异常值(如离群值或偏斜)具有很强的抵抗力。但是,小样本量并不是它要解决的问题之一。例如,当样本量变小时,它对偏斜的敏感性实际上要比平均值大得多。


谢谢约翰!实际上,出于您刚刚编写的原因,我选择使用中位数代替均值。我有不同的样本,所有样本都具有非高斯分布。有一些样本的得分超过50分,有的样本的得分少于10分,但是对于所有这些而言,我认为您的评论是正确的,不是吗?
玛丽

这么少,我不确定您能说些什么。如果您要比较少于10个样本和50个样本且基础分布不对称,即使没有样本,中值也会显示效果,因为小样本比大样本有更大的偏差。意思是不会的。
约翰,

将来,您可以更好地充实您的问题,并询问更多有关您真正需要了解的知识。说出为什么要完成目前为止的工作并描述您拥有的数据。您会得到更好的答案。
约翰,

1
样本量小不是它要解决的那些问题之一 ”值得单独 +1;剩下的就是红利
Glen_b-莫妮卡恢复13年

实际上,Huber在他的书中指出,鲁棒性没有单一的概念。异常值具有鲁棒性(这就是中值所具有的鲁棒性)。但是,另一种观点是对测量误差的鲁棒性,这就是平均值的鲁棒性,因为它平均了这些测量误差。但是,中位数极易受到测量误差波动的影响,因为它们可能像尾部一样严重影响分布的中间。
StasK 2013年

12

Sokal和Rohlf在他们的《生物测定法》(第139页)中给出了此公式。在“适用性评论”下,他们写道:来自正常人群的大量样本。 因此,恐怕您的问题的答案是否定的。另请参阅此处

自举 是获得小样本具有非正态分布的中位数的标准误差和置信区间的一种方法这篇文章提供了用于自举的Python软件包的链接。

警告

@whuber指出,在小样本中引导中值不是很有用,因为引导的正当性是渐近的(请参阅下面的评论)。


感谢您的回答!我知道引导程序是一种替代方法,我只是在猜测是否有一种方法可以用不同的方式来测量中位数的误差。对于MEAN(相同的小非高斯样本)上的标准误差,答案是否也是?
玛丽

@mary对于均值的标准误差,Sokal和Rohl写道,它适用于“ [...]具有有限方差的任何总体”。因此,均值标准误差的答案似乎是肯定的,您可以计算得出。旁注:尽管有些分布(例如柯西分布)没有定义的方差或均值,在这种情况下,无法计算SEM。
COOLSerdash

5
tt

@whuber感谢您的评论。很高兴知道。我删除了从答案中引导小样本中位数的建议。
COOLSerdash

1
我并不是要建议这是一个坏建议:我只想指出它的(不可避免的)局限性。从小样本中学到很多东西很难。但是引导小样本的工作却倍加麻烦,因为没有理论上的依据来支持它(所有的证明都是渐近的)。
ub

12

As.Var.[m^]=14f(m)2n
mf(m)

m^

  1. 方差的渐近公式适用于小样本;
  2. 估计的中位数足够接近真实中位数;
  3. 核密度估计器给出一个准确的值。

样本数量越少,其可疑程度就越高。


3
π21.253314
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.