我们已经对新产品功能进行了拆分测试,并希望衡量收入的增长是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户都没有消费,而在那些使用者中,它严重偏向许多小额支出者和一些非常大的支出者)。
我们已决定使用引导程序来比较均值,以解决数据没有正态分布的问题(附带的问题:这是引导程序的合法使用吗?)
我的问题是,在运行引导程序之前,是否需要从数据集中修剪异常值(例如,少数几个花费大的对象),还是没关系?
我们已经对新产品功能进行了拆分测试,并希望衡量收入的增长是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户都没有消费,而在那些使用者中,它严重偏向许多小额支出者和一些非常大的支出者)。
我们已决定使用引导程序来比较均值,以解决数据没有正态分布的问题(附带的问题:这是引导程序的合法使用吗?)
我的问题是,在运行引导程序之前,是否需要从数据集中修剪异常值(例如,少数几个花费大的对象),还是没关系?
Answers:
在解决此问题之前,重要的是要承认,在许多应用的统计教学方法中,错误地颁布了“消除异常值”的统计错误。传统上,离群值定义为高杠杆率,高影响力观察值。人们可以而且应该在数据分析中识别出这些观察结果,但是仅凭这些条件并不能保证消除这些观察结果。“真正的异常值”是高杠杆率/高影响力的观察结果,与实验设计的复制不一致。认为这样的观察需要该人群的专门知识和“数据生成机制”背后的科学。最重要的方面是,你应该能够识别潜在的异常值先验。
至于事物的自举方面,引导程序旨在模拟来自采样总体的独立重复绘制。如果您在分析计划中预先指定了排除标准,则仍应在参考自举抽样分布中保留排除值。这是因为您将考虑在采样数据后由于应用排除而导致的功率损耗。但是,如果没有预先指定的排除标准,并且使用事后裁决来删除异常值,正如我显然反对的那样,那么删除这些值将在推理中传播与删除异常值相同的错误。
考虑在100人的未经分层的简单随机样本中研究财富和幸福。如果我们直言“ 1%的人口拥有世界90%的财富”,那么我们将平均观察到一个非常有影响力的价值。进一步假设,除了提供基本的生活质量外,没有更多的可归因于更高收入的幸福感(非恒定线性趋势)。所以这个人也是高杠杆。
最小二乘回归系数拟合在纯数据上估计这些数据中的总体平均一阶趋势。样本中的1个人的幸福感与中位数收入水平相近,这对我们的影响极大。如果删除此个体,则最小二乘回归斜率会大得多,但回归变量的方差会减少,因此有关关联的推论大致相同。这样做的困难在于,我没有预先规定将个人排除在外的条件。如果另一位研究人员复制了该研究设计,他们将平均抽样一个高收入,中等幸福的人,并获得与我的“修剪”结果不一致的结果。
如果我们先验感兴趣的中等收入的幸福协会,那么,我们应该事先确定,我们会的,如“比较个人收入低于$ 100,000个家庭年收入”。因此,除去异常值会使我们估计无法描述的关联,因此p值毫无意义。
另一方面,可以消除校准错误的医疗设备和自欺欺人的调查谎言。在实际分析发生之前,排除标准的描述越准确,这种分析产生的结果就越有效和一致。
将此视为异常问题对我来说似乎是错误的。如果“完全不到用户的10%”,则需要对该方面进行建模。Tobit或Heckman回归将是两种可能性。