数据倾斜时应使用均值吗?
入门级应用统计文本通常通过解释均值对样本数据和/或样本中的异常值敏感,从而将均值与中值区分开来(通常是在描述性统计的背景下,并使用均值,中值和众数来激发集中趋势的汇总)。与偏斜的人口分布有关,这可以用作断言当数据不对称时首选中位数的理由。 例如: 给定数据集中集中趋势的最佳度量通常取决于值的分布方式...。当数据不对称时,中位数通常是集中趋势的最佳度量。因为均值对极端观察敏感,所以它会向偏远的数据值的方向拉动,结果可能会导致过度膨胀或过度缩小。” —Pagano和Gauvreau,(2000年),《生物统计学原理》,第二版。 (宝洁公司就在眼前,顺便说一句,本身并没有单独列出。) 作者因此定义了“集中趋势”:“一组数据最常被研究的特征是其中心,即观察趋向于聚集的点。” 这让我感到不那么直截了当的说仅使用中位数period的方式,因为只有在数据/分布对称时才使用均值与仅在等于中位数时才使用均值是同一回事。编辑: whuber正确地指出,我正在将中央趋势的有效度量与中位数相混淆。因此,重要的是要牢记,我正在讨论算术平均值与入门级应用统计学中的中位数的特定框架(此处不考虑模式,其他动机不倾向于集中趋势)。 与其以均值偏离中位数的行为来判断均值的效用,不应该简单地将它们理解为两种不同的中心度度量方法吗?换句话说,对偏度敏感是均值的特征。同样可以有效地辩称“中位数不好,因为它对偏斜度不敏感,因此仅在等于均值时才使用它。” (该模式显然不涉及此问题。)