Winsorizing数据意味着用两端的某个百分位值替换数据集的极值,而Trimming或截断涉及删除这些极值。
我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择,但我还没有看到为什么一个人可能会选择另一个。
使用Winsorizing或Trimming有什么相对优点或缺点?在某些情况下,最好使用一种方法吗?在实践中是否经常使用一种或它们基本上可以互换?
Winsorizing数据意味着用两端的某个百分位值替换数据集的极值,而Trimming或截断涉及删除这些极值。
我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择,但我还没有看到为什么一个人可能会选择另一个。
使用Winsorizing或Trimming有什么相对优点或缺点?在某些情况下,最好使用一种方法吗?在实践中是否经常使用一种或它们基本上可以互换?
Answers:
在所有领域中经常遇到的一个好问题!无论哪种情况,从技术上来讲,您都是从数据集中删除它们。
我知道在尝试以图形方式查找趋势以使用截断形式时,这是常见的做法:将整个数据集用于绘图目的,然后排除极值进行解释。
“ winsorizing”的问题在于,您添加的零件是自满的,即它们源自数据集本身,因此仅支持它。如果在决定如何使用训练和测试数据集时查看机器学习中的交叉验证/分类工作,也会遇到类似的问题。
无论如何,我都没有遇到过标准化的方法-它总是特定于数据的。您可以尝试找出导致给定百分比的波动率/ st的数据(异常值)是哪个百分比。偏差,并在减少波动性和保留尽可能多的数据之间找到平衡。