Questions tagged «winsorizing»

4
Winsorizing与Triming数据的相对优点是什么?
Winsorizing数据意味着用两端的某个百分位值替换数据集的极值,而Trimming或截断涉及删除这些极值。 我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择,但我还没有看到为什么一个人可能会选择另一个。 使用Winsorizing或Trimming有什么相对优点或缺点?在某些情况下,最好使用一种方法吗?在实践中是否经常使用一种或它们基本上可以互换?

8
用均值替换离群值
我的朋友不懂互联网,问了这个问题。我没有统计背景,并且一直在互联网上搜索此问题。 问题是:是否可以用均值替换异常值?如果有可能,是否有任何书籍参考/期刊可以备份此声明?

5
实际使用哪些健壮的相关方法?
我计划进行一次仿真研究,在其中比较几种具有不同分布(偏斜,离群值等)的鲁棒相关技术的性能。对于稳健,我的意思是对a)偏斜分布,b)离群值和c)重尾稳健的理想情况。 除了将Pearson相关性作为基准外,我还想包括以下更可靠的措施: 斯皮尔曼的ρρ\rho 折弯百分比(Wilcox,1994,[1]) 最小体积椭圆形,最小协方差行列式(cov.mve/ cov.mcd与cor=TRUE选项) 温莎相关 当然,还有更多选择(特别是如果您还包括强大的回归技术),但是我想将自己局限于使用最多/很有希望的方法。 现在,我有三个问题(可以只回答一个问题): 我可以/应该包括其他健壮的相关方法吗? 您的领域实际上 使用了 哪些强大的相关技术?(谈到心理研究:除了Spearman的,我从未在技术论文之外见过任何健壮的关联技术。自举技术越来越受欢迎,但到目前为止,其他健壮的统计数据或多或少不存在)。ρρ\rho 您是否已经知道多种相关技术的系统比较? 也可以随意评论上面给出的方法列表。 [1] Wilcox,RR(1994)。百分比弯曲相关系数。心理疗法,59,601-616。

4
数据倾斜时应使用均值吗?
入门级应用统计文本通常通过解释均值对样本数据和/或样本中的异常值敏感,从而将均值与中值区分开来(通常是在描述性统计的背景下,并使用均值,中值和众数来激发集中趋势的汇总)。与偏斜的人口分布有关,这可以用作断言当数据不对称时首选中位数的理由。 例如: 给定数据集中集中趋势的最佳度量通常取决于值的分布方式...。当数据不对称时,中位数通常是集中趋势的最佳度量。因为均值对极端观察敏感,所以它会向偏远的数据值的方向拉动,结果可能会导致过度膨胀或过度缩小。” —Pagano和Gauvreau,(2000年),《生物统计学原理》,第二版。 (宝洁公司就在眼前,顺便说一句,本身并没有单独列出。) 作者因此定义了“集中趋势”:“一组数据最常被研究的特征是其中心,即观察趋向于聚集的点。” 这让我感到不那么直截了当的说仅使用中位数period的方式,因为只有在数据/分布对称时才使用均值与仅在等于中位数时才使用均值是同一回事。编辑: whuber正确地指出,我正在将中央趋势的有效度量与中位数相混淆。因此,重要的是要牢记,我正在讨论算术平均值与入门级应用统计学中的中位数的特定框架(此处不考虑模式,其他动机不倾向于集中趋势)。 与其以均值偏离中位数的行为来判断均值的效用,不应该简单地将它们理解为两种不同的中心度度量方法吗?换句话说,对偏度敏感是均值的特征。同样可以有效地辩称“中位数不好,因为它对偏斜度不敏感,因此仅在等于均值时才使用它。” (该模式显然不涉及此问题。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.