中位数比平均值还公平吗？

17

我最近阅读了有关建议，您通常不应使用中位数来消除异常值。示例：以下文章 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/

目前有16条评论：

review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review)  ## "ordinary" summary

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.000   3.750   5.000   4.062   5.000   5.000

因为他们使用平均数，所以该文章获得4星，但是如果使用中位数，它将获得5星。

中位数不是“更公平”的法官吗？

实验表明，中位数误差始终大于平均值。中位数更糟吗？



library(foreach)

#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)

#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))

#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)

res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)

mean median average

— 罗兰·科夫勒
source

3

为什么拥有5星评级会更公平？有6/16条评论给出了更低的评分...

— nico

好吧，比您认为平均数是正确的平均值吗？多数人表示将其提高5。其余6/16则提高60％。

— 罗兰·科夫勒

2

如果我不得不给出一个独立的评估，看到这16条评论我会给出4，而不是5，因为-5对我来说意味着所有（或绝大多数）投票是5。6/16是〜40％，这并非完全可以忽略不计。

— nico，

8

因此，从本质上讲，我认为均值或中位数都不好。最好（如亚马逊一样）以不同的票数显示条形图。另外，有趣的是，在线1-5评级并不总是那么公平... youtube-global.blogspot.com/2009/09/…–

— nico

1

@nico：得分充满陷阱，您所指出的是我的文章的论点之一：objektorient.blogspot.com/2010/09/…–

— Roland Kofler

26

问题是您尚未真正定义拥有良好或公平的评级的含义。您在对@Kevin答案的评论中建议，如果一项不好的评论删除了一个项目，您将不喜欢它。但是，如果比较两个项目，其中一个具有“完美的记录”，而另一个具有一个不好的评价，也许应该反映出这种差异。

中位数和均值之间存在一个整体（高维）连续体。您可以按值对投票进行排序，然后对加权平均值进行加权，具体取决于该顺序中的位置。平均值对应于所有权重相等，中位数对应于中间的一个或两个条目获得非零权重，修整后的平均值对应于给除第一对和最后一对以外的所有人相同的权重，但是您也可以决定对权重为的样本中的第个 $k$ $n$ 或 $\frac{1}{1 + (2 k - 1 - n)^2}$ ，向其中随机扔东西。也许这样的加权平均值可以使异常值获得更少的权重，但仍然是非零值，可以结合中位数和均值的良好属性吗？ $\exp(-\frac{(2k - 1 - n)^2}{n^2})$

— 埃里克·P。
source

22

您得到的答案取决于您提出的问题。

均值和中位数回答不同的问题。因此，他们给出了不同的答案。不是一个人比另一个“公平”。中位数通常用于高度偏斜的数据（例如收入）。但是，即使在那儿，有时平均值也是最好的。有时您不希望有任何集中趋势的度量。

另外，每当您给出中心趋势的度量时，就应该给出传播的度量。最常见的配对是平均标准差和中位数四分位数范围。在这些数据中，我认为仅给出5的中位数会产生误导，或者至少是无用的。如果每一票都是5，则中位数也将是5。

— 彼得富勒姆-恢复莫妮卡
source

5

您关于传播程度的观点是这里的关键。这是在本次讨论中不断出现的其他名称之一，并且还与Erik P关于加权方案的讨论有关。

— 韦恩

8

如果唯一的选择是1到5之间的整数，那么真的可以认为是离群值吗？

$\alpha = 0.05$

Grubbs test for one outlier

data:  review  G = 2.0667, U = 0.6963,
p-value = 0.2153 alternative
hypothesis: lowest value 1 is an outlier

— 公里
source

因为在您的示例中只有一个人可以极大地改变结果。如果该人认为这本书的主题不同，那么他的过错将改变评分

— Roland Kofler

2

有人的意见是错误的吗？我认为失败是试图基于仅来自几个数据点的单个统计数据得出有意义的结论。如上面@nico所述，Amazon确实显示了所有评分的条形图。

— kmm

5

实验表明，中位数误差始终大于平均值。

这取决于您使用的成本函数。

平均而言，MSE最小化。因此，如果您使用MSE，则中位数总是比平均值差。

但是，如果您使用绝对误差，则其平均值会更糟！

对此的很好解释可以在这里找到：http : //www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/

选择取决于您的问题和偏好。如果您不希望离群值对“中心点”的位置产生重大影响，请选择中值。如果您在乎离群值，则选择均值。

— 多米尼克·德亚（Dominik Deja）
source

4

只是一个简单的想法：

如果您假设每个评分均来自潜在的连续变量，则可以将此感兴趣的基础连续变量的中位数定义为感兴趣的值，而不是此基础分布的均值。如果分布是对称的，则均值和中位数最终将估计相同的数量。在分布偏斜的地方，中位数将不同于平均值。在我看来，在这种情况下，中位数将与我们认为的典型值更加一致。这有助于理解为什么通常报告中位数收入和中位数房价而不是平均值。

但是，当离散值数量较少时，中位数效果会很差。

也许，您可以使用一些密度估算程序，然后取其中值，或使用一些插值中值。

— 杰罗米·安格利姆
source

2

使用中位数进行星级评分的好处在于，聪明的用户（意识到中位数的使用）不会“玩”系统：

如果有理智的用户认为正确的评分应该是4星，但目前只有4.5星，那么获得4星的最佳方法（假设获得了6票以上）是在基于均值的评分系统中投票1星。

在基于中位数的系统中，用户的理性选择只是简单地对用户认为产品应具有的星数进行精确投票。

这是星级评分系统的第二次价格拍卖。

— 斯蒂芬·贝尔西耶（Stephane Bersier）
source

有趣的论点，使用适当分数函数的

— 类比

不完全的。我的答案显示了一些示例，其中新的高值或低值将偏移中位数。

— 尼克·考克斯

不完全是什么？好的答案，顺便说一句。

— Stephane Bersier

合理的策略可能是投极端票。自然地，总会有一个关于其他人的选票知道多少的问题。

— 尼克·考克斯

@NickCox仅在您实际上希望极端值是正确的等级时。所以我相信我写的东西在所有情况下都是可行的。这与您的答案并不矛盾。

— Stephane Bersier

1

几个好的答案仍然留有余地以供进一步评论。

首先，没有人反对中位数旨在消除异常值的想法，但我将其限定为中值。预期的含义很明显，但是很容易使实际数据变得更加复杂。中位数最多旨在消除或忽略异常值，但即使如此也不能保证。例如，评分为1 1 1 5 5 5时，中位数和均值在3处一致，因此看起来似乎都不错。但是，额外的5将使中位数下降至5，额外的1将使中位数下降至1。在每种情况下，均值将移动约0.286。因此，此处的均值比中位数更具抗性。可以将示例视为不寻常而忽略不计，但这并不离谱。当然，这并非原创。它的制造地之一是在Mosteller，F.和Tukey，JW 1977中。数据分析和回归。 马萨诸塞州雷丁：Addison-Wesley，第34-35页。

其次，已经提到了修整手段，这一想法值得大力推动。均值和中位数不必是明显的替代方案，因此分析师必须选择（投票）另一者。您可以基于修剪每条尾巴中一定数量的值来考虑所有可能的修剪均值。表格以＃显示平均值计算中包含的值数量：

  +----------------------------+
  | number    #   trimmed mean |
  |----------------------------|
  |      0   16         4.0625 |
  |      1   14       4.214286 |
  |      2   12       4.416667 |
  |      3   10            4.6 |
  |      4    8           4.75 |
  |      5    6       4.833333 |
  |      6    4              5 |
  |      7    2              5 |
  +----------------------------+

这里的主要情况是，您可以选择折扣率（忽略每条尾巴中太多的值作为嫌疑人），作为一种抵制由于极高价值而退出的风险的保险。我看到的是平均值和中位数之间相当平滑的梯度，这在这里是可以预期的，因为可能的值1、2、3、4、5都存在于数据中。在孤立的离群值的情况下，预计序列会发生重大变化。

没有义务使用修剪的方法在每条尾巴上修剪相等的数字，但是我不会在此扩展。

第三，该示例是亚马逊评论。上下文始终与指导如何汇总数据有关。对于亚马逊评论，最好的答案是阅读评论！由于高低成绩都可能是出于虚假的原因（暗含的：这本书的作者是我的朋友）和/或与您的决定无关（明确的是：转售者对我的态度很差），对我而言，显然没有暗示着如何汇总此类数据，并且确实通过向您显示了分布，从而使Amazon获得了最大程度的指导。

第四，是最基本但也是最基本的，是谁让您选择？有时应同时报告均值和中位数（也可以说是分布图）。

— 尼克·考克斯
source