均值vs中位数


9

我有一个数据集,其中包含对紧急服务的所有呼叫以及急救部门的响应时间。他们承认响应时间存在一些错误,因为在某些情况下他们没有开始记录(因此值为0)或没有停止时钟(因此值可能非常高)。

我想找出中心趋势,我想知道使用中位数或修整后的平均值来消除异常值是否更好?


1
首先,我将删除所有无效数据(值= 0)。然后,我将使用直方图或箱形图可视化数据,以查看我的位置。因为如果您有10%的数据,就不能盲目地将数据修剪5%...
alesc

是的,或者绘制CDF。在R中,执行以下操作:times = times [times> 0]; plot(ecdf(times))
Paul

Answers:


12

考虑一下修整后的含义是什么:在典型情况下,您首先要对数据进行升序排序。然后,您可以从底部算起修整百分比,并丢弃这些值。例如,修整后的平均值为10%;在这种情况下,您将从最小值开始计数,直到您通过了集合中所有数据的10%。低于该标记的值被保留。同样,从最高值开始递减计数,直到超过修整百分比为止,然后将所有值都设置为大于该值。您现在剩下中间的80%。您取其均值,即10%的均值。(请注意,您可以从两条尾巴修剪不相等的比例,或者只修剪一条尾巴,但是这些方法并不常见,并且似乎不适用于您的情况。)

现在考虑一下,如果您计算了50%的均值,将会发生什么。下半部分将被搁置,而上半部分将被搁置。您通常只剩下中间的一个值。您可以将其均值(即,您将只取该值)作为修整后的均值。但是请注意,该值为中位数。换句话说,中位数是修整后的平均值(是修整后的平均值的50%)。这只是一个非常激进的行为。本质上,它假设您的数据中有99%被污染。这为您提供了针对异常值的最终保护,而最终却损失了功率 / 效率

我的猜测是,平均数/修整后的平均值50%比数据所需的积极程度大得多,并且过于浪费您可用的信息。如果您对存在的异常值的比例有任何了解,我将使用该信息来设置修整百分比并使用适当的修整平均值。如果没有任何依据来选择修整百分比,则可以通过交叉验证选择一个,或者使用仅包含截距的可靠回归分析。


1
我本着这种精神,但可能会误读为暗示修整的手段必定是基于修整尾巴中相等的分数。这只是常见的过程,而该过程最常在近似对称但可能有胖尾分布的参考案例中进行讨论,但这绝不是必须的。有文献只对一条尾部进行修整,当所有可疑值都在尾部时才有意义。
尼克·考克斯

@NickCox,很好。我添加了一些文字来澄清这一点。如果您认为还需要更多,请告诉我。
gung-恢复莫妮卡

看起来不错。自然地,在一条尾巴中修剪只是比例不等的特殊情况,其中比例为零。
尼克·考克斯

@NickCox,当然,但是我认为明确一点可能会更好。
gung-恢复莫妮卡

-1

首先,删除无效数据。

其次,您无需删除异常值,因为它们是观测值。在某些情况下,它很有用(例如在线性回归中),但在您的情况下,我看不到这一点。

最后,最好使用中位数,因为它可以更精确地找到数据的中心。如您所说,均值可能对异常值敏感(使用修整后的均值可能会有偏差)。


3
由于位置估计是回归的一种特殊情况,因此我很想知道在后者中而不是前者中除去异常值有何用处。
user603 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.