Winsorizing与Triming数据的相对优点是什么?


31

Winsorizing数据意味着两端的某个百分位值替换数据集的极值,而Trimming或截断涉及删除这些极值。

我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择,但我还没有看到为什么一个人可能会选择另一个。

使用Winsorizing或Trimming有什么相对优点或缺点?在某些情况下,最好使用一种方法吗?在实践中是否经常使用一种或它们基本上可以互换?


2
这里的术语具有误导性。修整意味着忽略极端值,每条尾巴中都有一些分数。这并不意味着删除或删除尾部的值,尤其是因为您可能并且通常应该将其包括在其他分析中。截断一词最好保留其他含义。参见例如en.wikipedia.org/wiki/Truncation_(statistics)–
Nick Cox

Answers:


11

在我偶然发现的一个与修剪有关的不同但相关的问题中,一个答案对为什么为什么要使用winsorizing或修剪以下有用的见解:

如果采用修剪后的分布,则应明确声明:我对分布的离群值/尾部不感兴趣。如果您认为“异常值”确实是异常值(即它们不属于分布,而是“另一类”),则进行修整。如果您认为它们属于该发行版,但您希望拥有一个不太偏斜的发行版,则可以考虑进行Winsorising。

我很好奇是否有更确定的方法,但是上述逻辑听起来很合理。


4

在所有领域中经常遇到的一个好问题!无论哪种情况,从技术上来讲,您都是从数据集中删除它们。

我知道在尝试以图形方式查找趋势以使用截断形式时,这是常见的做法:将整个数据集用于绘图目的,然后排除极值进行解释。

“ winsorizing”的问题在于,您添加的零件是自满的,即它们源自数据集本身,因此仅支持它。如果在决定如何使用训练和测试数据集时查看机器学习中的交叉验证/分类工作,也会遇到类似的问题。

无论如何,我都没有遇到过标准化的方法-它总是特定于数据的。您可以尝试找出导致给定百分比的波动率/ st的数据(异常值)是哪个百分比。偏差,并在减少波动性和保留尽可能多的数据之间找到平衡。


6
就像我上面的评论一样,“从数据集中删除它们”在这里太强了。修剪或Winsorizing只是表示它的功能,对于某些计算,可能会忽略或替换。您没有义务从数据集中删除尾部值,就好像您要扔掉烂果一样。例如,面对可能存在的异常值,您可以对数据来临时进行分析,并基于修整进行分析,看看它们有什么区别。
尼克·考克斯

-1

这是一个很好的问题,我曾经遇到过。如果您有一个大型数据集,或者更准确地说是一个变化很大的数据集,其中少数数据值在较大范围内变化(但仍然需要显示),并且大多数数据集都在狭窄的范围内,因此,如果按原样绘制数据,则丢失了大部分数据所在的细节,并且规范化或标准化没有(至少在视觉上)没有显示出足够的区分,或者需要原始数据,然后将其截断或取消存储。极高的数据值有助于更好地进行数据可视化。


这是一个很好的问题,但您没有回答。您只是说截断或Winsorizing可以帮助可视化。
尼克·考克斯

-2

Øñ日志ñØñ1个23442+2+3+4+4/52+3+4/32+3+4+4/4


1
并非不是需要对所有数据进行排序以计算中位数(就如您所希望的那样是真实的中位数),也不是 Øñ日志ñ计算找到它。有一些算法可以找到中位数Øñ(最坏的情况下)。[此外,如果快速选择可以按照您说的那样在O(n)中找到第25个和第75个百分位数,为什么快速选择无法以相同顺序找到第50个百分位数?]
Glen_b-恢复莫妮卡2014年

你是对的。我输错了我的原始帖子。有时打字的手指和大脑不同步。我的意思是说要正确计算真实的均值,您需要对所有数据元素进行排序。我相信这仍然是事实。我已经通过答案更新了。
Mark Lakata 2014年

2
这似乎意味着Winsorizing意味着每条尾巴的Winsorizing 25%。您可以视需要将Winsorize设置得尽可能多或少。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.