我有一个数据集,其中包含对紧急服务的所有呼叫以及急救部门的响应时间。他们承认响应时间存在一些错误,因为在某些情况下他们没有开始记录(因此值为0)或没有停止时钟(因此值可能非常高)。
我想找出中心趋势,我想知道使用中位数或修整后的平均值来消除异常值是否更好?
我有一个数据集,其中包含对紧急服务的所有呼叫以及急救部门的响应时间。他们承认响应时间存在一些错误,因为在某些情况下他们没有开始记录(因此值为0)或没有停止时钟(因此值可能非常高)。
我想找出中心趋势,我想知道使用中位数或修整后的平均值来消除异常值是否更好?
Answers:
考虑一下修整后的含义是什么:在典型情况下,您首先要对数据进行升序排序。然后,您可以从底部算起修整百分比,并丢弃这些值。例如,修整后的平均值为10%;在这种情况下,您将从最小值开始计数,直到您通过了集合中所有数据的10%。低于该标记的值被保留。同样,从最高值开始递减计数,直到超过修整百分比为止,然后将所有值都设置为大于该值。您现在剩下中间的80%。您取其均值,即10%的均值。(请注意,您可以从两条尾巴修剪不相等的比例,或者只修剪一条尾巴,但是这些方法并不常见,并且似乎不适用于您的情况。)
现在考虑一下,如果您计算了50%的均值,将会发生什么。下半部分将被搁置,而上半部分将被搁置。您通常只剩下中间的一个值。您可以将其均值(即,您将只取该值)作为修整后的均值。但是请注意,该值为中位数。换句话说,中位数是修整后的平均值(是修整后的平均值的50%)。这只是一个非常激进的行为。本质上,它假设您的数据中有99%被污染。这为您提供了针对异常值的最终保护,而最终却损失了功率 / 效率。
我的猜测是,平均数/修整后的平均值50%比数据所需的积极程度大得多,并且过于浪费您可用的信息。如果您对存在的异常值的比例有任何了解,我将使用该信息来设置修整百分比并使用适当的修整平均值。如果没有任何依据来选择修整百分比,则可以通过交叉验证选择一个,或者使用仅包含截距的可靠回归分析。
首先,删除无效数据。
其次,您无需删除异常值,因为它们是观测值。在某些情况下,它很有用(例如在线性回归中),但在您的情况下,我看不到这一点。
最后,最好使用中位数,因为它可以更精确地找到数据的中心。如您所说,均值可能对异常值敏感(使用修整后的均值可能会有偏差)。