数据倾斜时应使用均值吗?


14

入门级应用统计文本通常通过解释均值对样本数据和/或样本中的异常值敏感,从而将均值与中值区分开来(通常是在描述性统计的背景下,并使用均值,中值和众数来激发集中趋势的汇总)。与偏斜的人口分布有关,这可以用作断言当数据不对称时首选中位数的理由。

例如:

给定数据集中集中趋势的最佳度量通常取决于值的分布方式...。当数据不对称时,中位数通常是集中趋势的最佳度量。因为均值对极端观察敏感,所以它会向偏远的数据值的方向拉动,结果可能会导致过度膨胀或过度缩小。”
—Pagano和Gauvreau,(2000年),《生物统计学原理》,第二版。 (宝洁公司就在眼前,顺便说一句,本身并没有单独列出。)

作者因此定义了“集中趋势”:“一组数据最常被研究的特征是其中心,即观察趋向于聚集的点。”

这让我感到不那么直截了当的说仅使用中位数period的方式,因为只有在数据/分布对称时才使用均值与仅在等于中位数时才使用均值是同一回事。编辑: whuber正确地指出,我正在将中央趋势的有效度量与中位数相混淆。因此,重要的是要牢记,我正在讨论算术平均值与入门级应用统计学中的中位数的特定框架(此处不考虑模式,其他动机不倾向于集中趋势)。

与其以均值偏离中位数的行为来判断均值的效用,不应该简单地将它们理解为两种不同的中心度度量方法吗?换句话说,对偏度敏感是均值的特征。同样可以有效地辩称“中位数不好,因为它对偏斜度不敏感,因此仅在等于均值时才使用它。”

(该模式显然不涉及此问题。)


3
我个人喜欢同时包括均值和中位数两个度量,这不仅可以为读者提供有关集中趋势的信息,还可以使您了解数据的偏斜度。
bdeonovic

1
一些上下文和澄清将改善这个问题。(1)这些(假设的)介绍性文字在什么情况下断言均值是首选的,出于什么目的?(2)这些文本究竟是如何“通过均值偏离中位数的行为来判断均值的效用”的?您能否提供一个例子或报价,以便我们更好地理解?
ub

2
有时您会误解:中位数并不是唯一对某些极端观察具有鲁棒性的统计数据。因此,均值是基于(通常)不希望有的特征而不是与中位数进行比较而得出的。但是,我也一窥您的担忧,也许这与报价中隐含的不对称混淆和异常值的存在有关。令人遗憾的是,这是一个错误的构想,因为尽管有时会有异常值表示不对称,但相反的情况通常并不正确。
ub

7
这里的读者会发现以下有趣的话题:如果均值如此敏感,为什么要首先使用它?
gung-恢复莫妮卡

2
根据对“集中趋势”的定义,似乎很清楚为什么在存在偏斜或离群值的情况下均值不是有用的度量。您是否真的想估计这种集中趋势的概念似乎是另一回事!
jsk 2014年

Answers:


16

我不同意这个建议,将其作为一条统一的规则。(并非所有书籍都如此。)

问题更加微妙。

如果您实际上对推断总体平均值感兴趣,则样本平均值至少是该指标的无偏估计量,并且还有许多其他优点。实际上,请参阅高斯-马尔可夫定理 -最好是线性无偏的。

如果变量严重偏斜,则“线性”问题会出现-在某些情况下,所有线性估计量可能都很差,因此最好的线性估计量仍然没有吸引力,因此,非线性的均值估计量可能更好,但这需要了解一些(甚至很多)有关发行的知识。我们并不总是那么奢侈。

如果您不一定对与人口均值有关的推断(“ 典型年龄是多少? ”)感兴趣,请说,或者是否存在从一个人口到另一个人口的更普遍的地理位置变化,这可以用任何位置,甚至检验一个变量随机大于另一个变量),然后根据总体均值进行铸造,要么不必要,要么可能适得其反(在最后一种情况下)。

所以我认为可以归结为:

  • 您实际的问题是什么?在这种情况下,人口问题甚至是好事吗?

  • 给定情况(在这种情况下为偏斜),回答问题的最佳方法是什么?使用样本是回答我们感兴趣的问题的最佳方法吗?

可能您不是直接对总体均值有疑问,但是样本均值是查看这些问题的好方法...反之亦然-问题可能与人口均值有关,但样本均值可能不是解决问题的最佳方法回答这个问题。


14

在现实生活中,我们应该根据我们试图找出的结果来选择一种集中趋势的度量;是的,有时该模式是正确的选择。有时,这是温莎式或修剪式的均值。有时,几何或谐波均值。有时没有很好的衡量中心趋势的手段。

入门书籍写得不好,他们教导说有适用的烹饪规则。

拿收入。这通常是非常偏斜的,有时还有离群值;确实,我们通常会看到“中位数收入”的报告。但是有时离群值和偏度很重要。这取决于环境,需要思考。

我写了更多


2
彼得,非常感谢您链接到您的帖子。我希望介绍性文字占用1到2页的空间,以便像您在此处提供的那样仔细考虑。
亚历克西斯

4
我还没有写过,但是我想对介绍性文本添加一点防御。任何试图使经验丰富的专业人士都承认的细微差别的介绍性文字,几乎所有预期的接收者都会大跌眼镜;实际上,它甚至都不会发布。
尼克·考克斯

5
实质性评论:当值相加时,总计使(例如)具有物理意义,则平均值是自然的总结,而与各个值的分布无关。
尼克·考克斯

3
@NickCox我认为入门性文字可以做得比他们好得多。对于均值与中位数,它甚至不是数学上的论点,而是实质性的论点。介绍性文本需要告诉阅读它们的人,他们实际上没有资格进行数据分析。
彼得·弗洛姆

2
@jsk。哦好的。我认为需要在统计数据中明确告诉他们,因为许多人似乎认为在完成一门数据分析课程后他们已经准备就绪。实际上,在许多领域(心理学,社会学,医学等)中,人们期望仅经过1、2或有时3个课程就可以进行数据分析。例如,在博士课程中,他们会写论文。为什么在其他领域更明显?我不确定。
彼得·弗洛姆

6

即使数据出现偏差(例如,医疗费用与临床试验同时计算),也很少有患者因入组后死亡而总计为零费用,并且很少有患者由于所研究的特定医疗计划的副作用而产生了数吨的费用),由于至少一个实际的原因,均值可能比中值更可取:将患者的平均费用乘以患者数,将使卫生保健决策者对所研究的卫生保健技术产生预算影响。


回应卡洛的评论:如果您对总体总数(例如,审计抽​​样)感兴趣,那么您对均值,时期感兴趣。如果分布的偏斜或异常值没有影响,您只需对其进行处理。您无法Winsorize,修剪,否则不能删除异常值或进行对数变换。分层可以极大地帮助您;在极端离群值的情况下,这些值应作为自己的层次。
彼得·韦斯特伦

3

我认为,到目前为止,问题和答案都缺少的是,介绍性统计书中有关均值和中位数的讨论通常发生在有关如何对分布进行数字汇总的章节的早期。与推理统计相反,这通常是关于生成描述性统计,这将是一种有用的方式,以数字方式而非图形方式传达有关数据分布的信息。出现这种情况的上下文是报告或期刊文章的描述性统计部分,其中通常没有空间来容纳数据集中所有变量的图形摘要。如果分布偏斜,在这种情况下,选择中位数而不是均值似乎是明智的。如果分布是对称的,没有异常值,


1
关于描述性统计与推理性统计的观点是值得的。但是,您实际上是在说(对于描述性统计数据)“仅在与中位数相同时才使用平均值”。如果分布偏斜,那么代表人均概念的中位数就不好了,对吗?因此,“仅在等于均值时才使用中位数”这一立场是否同样有效?这同样是任意的,并且似乎将注意力从这些措施的实质意义上转移了出来(对于学习这些措施的人们而言)。
亚历克西斯

1
目的不是代表人均观念吗?谁说的?为什么要假设这不是目标?
亚历克西斯

1
我没有看到OP的任何粗鲁或“行事震惊” ...只是在说......
Nick Stauner 2014年

1
在这种情况下,无论您是进行推理还是描述性统计,我都认为这无关紧要。如果适当的描述集中趋势的方法是中位数,则应该对中位数做出推论;如果是卑鄙的话,那么卑鄙的话。如果没有描述性的方法是有意义的,那么推理性的方法也将是没有意义的。
彼得·弗洛姆

1
@PeterFlom如果最终目标不是推断,该怎么办?我同意描述性统计的适当性完全取决于产生该统计的原因。“没有描述性的措施是有道理的”这一观念似乎暗示着,描述性统计数据不可能具有内在意义。我认为,在几乎所有情况下,根据定义,中位数都可以作为分布中心的度量。另一个目的是否有意义。
jsk 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.