平均数


11

我正在处理高度偏斜的数据,因此我使用中位数而不是均值来概括中心趋势。我想测量分散度虽然我经常看到人们报告平均值标准偏差±中值四分位数±以总结中心趋势,但报告中值中值绝对分散度(MAD)± 是否可以?这种方法是否存在潜在问题?

与报告上下四分位数相比,我会发现这种方法更加紧凑和直观,尤其是在充满数字的大表中。


3
我认为,中位数,较低和较高的四分位数可以更好地描述数据。您可以在此处找到其他描述性统计信息。

1
我想尽可能简洁:中位数+ 2个四分位数可以吗?
Mulone

4
MAD是表达一组数据离散度的优良统计数据-它比离四分位间距更大的范围可以抵抗异常值。但是您可能想考虑中位数 MAD的真正含义,以及您的听众应该如何解释它。它不具有均值± SD 的相同渐近性或Chebeyshev不等式性质。也许这就是为什么这样的表达很少(如果曾经使用过)的原因。±±
ub

1
我一直以为MAD代表平均绝对偏差类似于mse的均方根误差。它是与平均值的绝对偏差的平均值,而不是中位数。我是对的还是我要去疯狂?
Michael R. Chernick

2
图片是一千个单词,如果可能的话显示直方图非常有力。
bdeonovic

Answers:


7

±

±

四分位数/分位数给出了更好的分配概念,但付出了额外的数字-(4.9,5.0,1000000.0)。我怀疑偏斜是第三时刻,而且我似乎需要三个数字/维度才能直观地看到偏斜的分布,这完全是偶然的。

也就是说,它本身没有任何问题-我只是在这里争论直觉和可读性。如果您是为自己或团队使用它,那就疯了。但是我认为这会使广大观众感到困惑。


2
(+1)我想补充的是,关于第三时刻的偏度的定义在当今并不是最被接受的,因为它只能应用于带有轻尾的分布。偏度的更现代定义基于分位数,其中一些可以在此处找到。

1
@amoeba是吗?MAD的Wikipedia页面将其定义为Median(| Xi-Median(X)|),在给定的数据下为0.1。
Upper_Case

@Upper_Case谢谢。我错了(忘了约5-5 = 0学期)。我将删除上面的评论,以免使以后的读者感到困惑!
变形虫说莫妮卡(Reonica Monica)

4

使用MAD等于假设基础分布是对称的(均等地考虑中位数以上和中位数以下的偏差)。如果您的数据不正确,那显然是错误的:它将导致您高估数据的真实可变性。

幸运的是,您可以选择mad的几种替代方法之一,它们同样健壮,几乎一样易于计算且不假设对称性。

看看Rousseeuw和Croux 1992。这些概念在这里已得到很好的解释并在此处得以实现。这两个估计量是所谓的U统计量类的成员,对此有一个完善的理论。


1

“本文研究了一种更准确的不对称指数。具体地说,提出了左右方差的使用,并介绍了基于它们的不对称指数。几个例子证明了其有用性。更精确地评​​估色散的问题在所有非对称概率分布中都会出现关于平均值的数据。当总体分布是非对称时,一组数据的平均值和方差(或标准差)不能提供精确的数据分布概念,尤其是形状和对称性。有人认为,平均值,建议的左方差(或左标准偏差)和右方差(或右标准偏差)可以更准确地描述数据集。”

链接


3
您引用了一篇论文的摘要,并提供了类似于URL的内容(我很乐意修复链接)。这并不是我们在这里寻找的答案的类型。我鼓励您编辑答案,并尝试添加一些有关此链接为何有助于回答问题的评论。如果您解释了这种不对称指数与平均集中趋势和MAD的关系,那么答案将会大大改善。
MånsT
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.