是否有多个“中位数”公式?


16

在我的工作中,当个人引用数据集的“平均值”值时,他们通常是指算术平均值(即“平均值”或“期望值”)。如果我提供了几何平均值,人们可能会认为我是在冷嘲热讽或无助,因为“均值”的定义是事先已知的。

我正在尝试确定数据集的“中位数”是否有多个定义。例如,由同事提供的用于查找元素数为偶数的数据集的中位数的定义之一是:

算法“ A”

  • 将元素数除以2,向下舍入。
  • 该值是中位数的指数。
  • 即对于以下集合,中位数为5
  • [4, 5, 6, 7]

尽管四舍五入方面似乎有些武断,但这似乎是有道理的。

算法“ B”

无论如何,另一位同事提出了一种单独的算法,该算法在他的统计资料教科书中(需要获得名称和作者):

  • 将元素数除以2,并保留四舍五入和四舍五入的整数的副本。他们的名字n_lon_hi
  • 采取在元素的算术平均值n_lon_hi
  • 即对于以下集合,中位数为(5+6)/2 = 5.5
  • [4, 5, 6, 7]

但是,这似乎是错误的,因为5.5在这种情况下,中间值实际上不在原始数据集中。当我们在某些测试代码中将算法“ A”换成“ B”时,它就破烂了(正如我们预期的那样)。

这两种计算数据集中位数的方法是否有正式的“名称”?即“两个中位数中的较少者”与“平均中间元素并制作新数据中位数”?


16
我从未见过算法“ A”被视为中位数。数据本身的趋势趋势的描述性统计不在数据本身之内应该不是问题:毕竟,大多数手段也不在数据中。我们希望中位数具有一个更基本的属性,即当数据顺序相反时,它不会改变,因为从最小到最大或从最大到最小对数据进行排序是一种随意的问题。因此,大多数作者将中位数定义为算法“ B”,因为到目前为止,这是最简单的可能的阶数不变的过程。
ub

3
@whuber算法'A'有时被称为低中位数。当然也有相应的中位数。通常,中位数是两者的平均值(可能是也可能不是来自计算中位数的集合中的一个元素)。
user603

8
重复评论的好时机和地点,即有序观察的偶数样本中的两个中心值(如1、2、3、4、5、6中的3和4)应被视为喜剧演员(由SM Stigler,R。Koenker和毫无疑问的其他人独立打趣)。
尼克·考克斯

3
两种算法都不会缺少对数据进行排序的关键步骤吗?
埃米尔(Emil)

3
如果您需要“中位数”始终是数据集的元素,那么您实际上可能正在寻找medoid
Ilmari Karonen

Answers:


23

TL; DR-我不知道给样本中位数的不同估计量指定了具体名称。从某些数据中估计样本统计信息的方法相当繁琐,并且不同的资源给出了不同的定义。

在Hogg,McKean和Craig的《数学统计入门》中,作者提供了随机样本中位数的定义,但仅在样本数量奇数的情况下!作者写道

nY(n+1)/2

Yii

ñ

算法B具有以下特性:一半数据低于该值,一半数据低于该值。根据随机变量中位数的定义,这似乎很好。


特定估计量是否破坏单元测试是单元测试的属性-当替换另一个估计量时,针对特定估计量编写的单元测试不一定成立。在理想的情况下,选择单元测试是因为它们反映了组织的关键需求,而不是因为关于定义的教条论据。


2
(+1)我们还可以添加(1)当值带有权重时,中值的定义在原理上和实践上都必须涵盖。(到目前为止,在所有答案中都是隐喻的,因此所有权重均相等,因此无关紧要。)虽然权重累加总和中的线性插值最简单,但在某些情况下,其他类型的插值可能有意义。(2)中位数的更严格定义通常旨在涵盖离散,连续和混合分布,包括那些在某处出现概率峰值的分布。
尼克·考克斯

25

@Sycorax说什么。

事实上,令人惊讶的是,一般分位数有许多定义,尤其是中位数。Hyndman&Fan(1996,《美国统计学家》给出了一个概述,即AFAIK,仍然很全面。不同类型没有正式名称。您可能只需要清楚所使用的类型即可。(它与实际大小的数据集通常并没有太大的区别。)

注意,通常接受具有不存在于数据集中的值作为中值,例如5.5作为(4、5、6、7)的中值。这是R的默认行为:

> median(4:7)
[1] 5.5

median()默认情况下,R 使用Hyndman&Fan's分类的类型7。


6
+1表示“它通常与实际大小的数据集并没有太大的区别。” 我会偷用它,而不是像往常那样“如果让材料有所作为,那么您可能需要更多数据”。:)
Jason

1
如果您的二进制变量的值为0、1(例如),并且具有大约相等的0s和1s(均值接近0.5),那么大样本量并不一定会阻止报告的中位数在0、0.5和1之间来回翻转。 Mosteller和Tukey(Data Analysis and Regression 1977)引用了强烈的双峰分布和几乎对称的分布,因为中位数的表现可能不是特别好。
尼克·考克斯

3

在R的mad函数中,它使用术语“中位数”来描述算法A,使用“高中位数”来描述舍入,而仅使用“中位数”来描述算法B(正如其他人所指出的那样,最常见的定义)。

奇怪的是,R的median()功能上没有这样的选择!(但是R quantile()具有type很好的控制能力。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.