我有一个用四种方法测试的预测模型,如下面的箱线图所示。模型预测的属性在0到8的范围内。
您可能会注意到,所有方法都指示一个上界离群值和三个下界离群值。我想知道从数据中删除这些实例是否合适?还是这是一种欺骗,以改善预测模型?
我有一个用四种方法测试的预测模型,如下面的箱线图所示。模型预测的属性在0到8的范围内。
您可能会注意到,所有方法都指示一个上界离群值和三个下界离群值。我想知道从数据中删除这些实例是否合适?还是这是一种欺骗,以改善预测模型?
Answers:
这是几乎总是作弊去除意见,以改善回归模型。仅当您真正认为这些事实实际上是离群值时,才应放弃观察。
例如,您将来自心率监测器的时间序列连接到了智能手表。如果您看一下该系列,很容易看到读数为300bps的错误观察结果。这些应该被删除,但不是因为您想改进模型(无论它是什么意思)。它们是阅读错误,与您的心率无关。
但是要注意的一件事是错误与数据的相关性。在我的示例中,可能会争辩说,在诸如跑步或跳跃之类的运动中,当心率监测器移位时,您会出错。这将使这些误差与哈特率相关。在这种情况下,必须小心删除这些异常值和错误,因为它们不是随机的
我将为您提供何时不删除异常值的完整示例。假设您正在测量弹簧上砝码的运动。如果重量相对于重量强度较小,则您会注意到胡克定律的效果很好:其中是力,张力系数,是位置重量。
现在,如果您放了很重的砝码或放了太多的砝码,您将开始发现偏差:在足够大的位移,运动似乎会偏离线性模型。因此,您可能很想删除离群值以改进线性模型。这不是一个好主意,因为该模型不能很好地运行,因为胡克定律只是近似正确的。
更新在您的情况下,我建议拉那些数据点并仔细观察它们。可能是实验室仪器故障吗?外部干扰?样品缺陷?等等
接下来,尝试确定这些异常值的出现是否可以与您在我给出的示例中所测量的值相关联。如果存在相关性,那么就没有简单的方法进行处理。如果没有相关性,则可以删除异常值
It is always a cheating to remove outliers to improve a regression model.
您是否认为样条回归是作弊行为?FWIW,它确实降体重的意见,以改善[本地]回归模型〜
我本来想将其发布为对另一个答案的评论,但是它太长了,无法容纳。
当我查看您的模型时,它不一定包含一个大的组和一些离群值。在我看来,它包含1个中型组(1到-1),然后是6个较小的组,每个组在2个整数之间。您可以很清楚地看到,当达到整数时,在这些频率处观察到的数据较少。唯一的特殊点是0,观测值实际上并没有明显的下降。
我认为,值得解释为什么这种分布如此分散:
在测量离散的人类动作时,总是会有异常值。看看为什么这些离群值不适合您的模型,以及如何将它们用于改进模型的未来迭代,可能会很有趣。
删除异常值和仅为“正常模式”构建模型是有利有弊。
优点:模型性能更好。直觉是,很难使用一个模型来捕获“正常模式”和“异常模式”。因此,我们删除异常值并说,我们仅针对“正常模式”构建模型。
缺点:我们将无法预测异常值。换句话说,假设我们将模型投入生产,那么该模型会缺少一些预测
我建议删除异常值并构建模型,如果可能,尝试仅为异常值构建单独的模型。
对于“作弊”一词,如果您正在写论文并明确列出如何定义和删除异常值,则提到的改进性能仅针对干净数据。它不是作弊。
if it is fine to produce no output in production
意味着同样的事情?因此,如果我们开始在实际应用程序中使用我们的模型来测试结果变量并在应用程序中使用预测分数,那么删除异常值(尤其是如果您提到的异常值很多)是不行的吗?这是你的意思吗?