根据“ 2.5倍RMSE”剔除异常值

在Kahneman and Deaton（2010），作者写道： $^\dagger$

该回归解释了37％的方差，均方根误差（RMSE）为0.67852。为了消除异常值和不合理的收入报告，我们删除了一些观察结果，即原木收入与其预测之间的差异的绝对值超过了RMSE的2.5倍。

这是惯例吗？这样做的直觉是什么？根据一开始可能未明确指定的模型定义离群值似乎有些奇怪。异常值的确定是否应该基于构成合理值的某些理论依据，而不是模型对实际值的预测能力如何？

$\dagger$ ：丹尼尔·卡尼曼（Daniel Kahneman），安格斯·迪顿（Angus Deaton）（2010年）：高收入可以改善人们对生活的评估，但不能改善情感幸福感。_{^{美国国家科学院院刊，2010年9月，107（38）16489-16493；DOI：10.1073 / pnas.1011492107}}

regression outliers

— Parseltongue
source

当您提供纸张报价时，请务必提供包括页码的参考。

— 本-恢复莫妮卡

我不能说这是否是“惯例”，但我希望不是。从根本上自动删除“异常值”是一个坏主意。也许您的模型或去除标准不好，也许正在发生一些新的事情（低迷开始，新的可能性唤醒），您不应该忽略。//如果您可以跟踪可疑的值来记录数据输入错误或设备故障，或者该值仅仅是荒唐的（16'2“高个子，上周二有61个收费小时，飞行25分钟） SFO-ORD），但不是因为它不适合模型，我知道一家初创公司就这样破产了

— BruceET

他们报告的RMSE的小数位数很荒谬，反映了这种方法的统计有效性。

— 弗朗斯·罗登堡

这似乎是我几个月前问到的一个粗略/英勇的假设解决方案：stats.stackexchange.com/questions/390051/…–

— Adrian

引用中直接列出了删除此数据的原因：即“消除异常值和不合理的收入报告”。他们将这两种事物结合在一起使用的事实意味着，他们承认至少有一些离群值不是不合理的值，并且在任何情况下，他们都没有给出为什么将残值高的值视为“不可信的”的说法。收入值。通过这样做，他们可以有效地删除数据点，因为残差高于其回归模型中的期望值。正如我在这里的另一个答案中所述，这等于要求现实符合您的模型假设，而忽略了不符合那些假设的现实部分。

不管这是一种普通做法，还是一种可怕的做法。发生这种情况是因为难以处理外围数据点，并且分析人员不愿对其进行正确建模（例如，通过使用在误差方面允许更高峰度的模型），因此它们只是删除了现实中没有的部分符合他们进行统计建模的能力。这种做法在统计上是不希望的，并且会导致推断，系统地低估了误差项中的方差和峰度。本文的作者报告说，由于删除了这些异常值，他们删除了3.22％的数据（第16490页）。由于大多数这些数据点本来都是很高的收入，这使人们对他们能否就高收入的影响做出可靠的结论（这是他们的研究目标）的能力产生了很大的怀疑。

— Ben-恢复莫妮卡
source

你怎么敢批评的丹尼尔·卡尼曼！除了笑话，这些都是+1分。

— 蒂姆

卡尼曼（Kahneman）是一位非常优秀的心理学家，我普遍喜欢他的书，并发现它们很有帮助。他们每个人都可以得到五十个诺贝尔奖--不会改变大规模去除“异常值”是一种糟糕的统计方法这一事实。

— 本-恢复莫妮卡

当然，我同意你的看法。我认为这不必说。

— 尼克·考克斯

@NickCox您的意思是所谓的“诺贝尔纪念奖”：我确定您知道它不是由诺贝尔设立的，与他真的没有任何关系。官方名称显然是“ Sveriges Riksbank经济科学奖以纪念阿尔弗雷德·诺贝尔”。

— 变形虫说莫妮卡（Monica）恢复

您确定我知道，并且您确实是对的。始终权威的EJMR曾经刊登过有关我的帖子“不，他永远不会赢得诺贝尔奖”，这意味着该奖。

— 尼克·考克斯