在我的工作中,当个人引用数据集的“平均值”值时,他们通常是指算术平均值(即“平均值”或“期望值”)。如果我提供了几何平均值,人们可能会认为我是在冷嘲热讽或无助,因为“均值”的定义是事先已知的。
我正在尝试确定数据集的“中位数”是否有多个定义。例如,由同事提供的用于查找元素数为偶数的数据集的中位数的定义之一是:
算法“ A”
- 将元素数除以2,向下舍入。
- 该值是中位数的指数。
- 即对于以下集合,中位数为
5
。 [4, 5, 6, 7]
尽管四舍五入方面似乎有些武断,但这似乎是有道理的。
算法“ B”
无论如何,另一位同事提出了一种单独的算法,该算法在他的统计资料教科书中(需要获得名称和作者):
- 将元素数除以2,并保留四舍五入和四舍五入的整数的副本。他们的名字
n_lo
和n_hi
。 - 采取在元素的算术平均值
n_lo
和n_hi
。 - 即对于以下集合,中位数为
(5+6)/2 = 5.5
。 [4, 5, 6, 7]
但是,这似乎是错误的,因为5.5
在这种情况下,中间值实际上不在原始数据集中。当我们在某些测试代码中将算法“ A”换成“ B”时,它就破烂了(正如我们预期的那样)。
题
这两种计算数据集中位数的方法是否有正式的“名称”?即“两个中位数中的较少者”与“平均中间元素并制作新数据中位数”?