引导程序-我需要先删除异常值吗?


19

我们已经对新产品功能进行了拆分测试,并希望衡量收入的增长是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户都没有消费,而在那些使用者中,它严重偏向许多小额支出者和一些非常大的支出者)。

我们已决定使用引导程序来比较均值,以解决数据没有正态分布的问题(附带的问题:这是引导程序的合法使用吗?)

我的问题是,在运行引导程序之前,是否需要从数据集中修剪异常值(例如,少数几个花费大的对象),还是没关系?


1
好问题:我可能会赞成赞成并反对消除异常值。如果您担心异常值,而寻找的只是“中心趋势”,为什么不使用中位数呢?鉴于与货币相关的变量通常具有高度偏斜的分布(例如,帕累托),因此一开始可能并不合理。
usεr11852恢复单胞菌说,

1
@ user11852中位数仅告诉您与收入相关的平均值。看到您的观点赞成删除“异常值”的说法会很有趣,尤其是当这些异常值可能是总收入的主要来源时。
ub

1
不幸的是,中位数将始终为零,因为所有用户的支出
均不

2
@ user11852您通常认为离群值是合法的是有帮助的。但是,关于扩增的可能性,在我看来,情况恰恰相反:自举只有在使用完整样本的情况下才有机会发挥作用。否则,它将呈现一个童话故事,告诉我们如果不存在异常值,情况将会如何-但显然它们确实存在。更大的问题是,将自举应用于小样本时,其理论依据很少:该理论是渐近的
ub

2
这是一个重要的问题(+1)。您可以添加数据集的小样本还是类似于问题的模拟样本?我认为在这种情况下提供插图会更有成果。
user603 2013年

Answers:


6

在解决此问题之前,重要的是要承认,在许多应用的统计教学方法中,错误地颁布了“消除异常值”的统计错误。传统上,离群值定义为高杠杆率,高影响力观察值。人们可以而且应该在数据分析中识别出这些观察结果,但是仅凭这些条件并不能保证消除这些观察结果。“真正的异常值”是高杠杆率/高影响力的观察结果,与实验设计的复制不一致。认为这样的观察需要该人群的专门知识和“数据生成机制”背后的科学。最重要的方面是,你应该能够识别潜在的异常值先验

至于事物的自举方面,引导程序旨在模拟来自采样总体的独立重复绘制。如果您在分析计划中预先指定了排除标准,则仍应在参考自举抽样分布中保留排除值。这是因为您将考虑在采样数据后由于应用排除而导致的功率损耗。但是,如果没有预先指定的排除标准,并且使用事后裁决来删除异常值,正如我显然反对的那样,那么删除这些值将在推理中传播与删除异常值相同的错误。

考虑在100人的未经分层的简单随机样本中研究财富和幸福。如果我们直言“ 1%的人口拥有世界90%的财富”,那么我们将平均观察到一个非常有影响力的价值。进一步假设,除了提供基本的生活质量外,没有更多的可归因于更高收入的幸福感(非恒定线性趋势)。所以这个人也是高杠杆。

最小二乘回归系数拟合在纯数据上估计这些数据中的总体平均一阶趋势。样本中的1个人的幸福感与中位数收入水平相近,这对我们的影响极大。如果删除此个体,则最小二乘回归斜率会大得多,但回归变量的方差会减少,因此有关关联的推论大致相同。这样做的困难在于,我没有预先规定将个人排除在外的条件。如果另一位研究人员复制了该研究设计,他们将平均抽样一个高收入,中等幸福的人,并获得与我的“修剪”结果不一致的结果。

如果我们先验感兴趣的中等收入的幸福协会,那么,我们应该事先确定,我们会的,如“比较个人收入低于$ 100,000个家庭年收入”。因此,除去异常值会使我们估计无法描述的关联,因此p值毫无意义。

另一方面,可以消除校准错误的医疗设备和自欺欺人的调查谎言。在实际分析发生之前,排除标准的描述越准确,这种分析产生的结果就越有效和一致。


我不确定我为什么理解“ 如果您在分析计划中预先指定了排除标准,则仍应在参照自举抽样分布中保留排除值。 ”您提到这是“,因为您将考虑到由于在对数据进行采样后应用排除。 “我不知道为什么会认为采样后应用排除标准会导致功率损失,或者为什么/为什么将被排除的案例留在引导程序样本中“解释”(?),也没有进一步解释为什么这是必须“解释”的事情。也许我在这里很稠密。
Jake Westfall

p

嗯,我的想法是,如果确实事先指定了排除标准-以便我们对某些类型的案例显然不感兴趣,并且推测将来的研究重复将使用这些相同的排除标准-那么离开就有意义那些不属于引导样本的案例,因为它们是我们不希望做出任何推断的人群的一部分。我也看到了未来的复制最终会如何排除病例的比例不同,但我不能完全做出连接为什么这个事项,我们明确的情况下有意..
杰克西部荒野

1
pH0

0

将此视为异常问题对我来说似乎是错误的。如果“完全不到用户的10%”,则需要对该方面进行建模。Tobit或Heckman回归将是两种可能性。


2
目前,这更多是评论而不是答案。您介意将其扩展一点以使其更具回答性吗?
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.