我一直在阅读库克的距离,以找出对我的回归影响较大的离群值。在库克的原始研究中,他说,将临界值设为1应该可以确定影响者。但是,其他各种研究也使用或作为截止值。
在我的研究中,我的残差都不是D大于1。但是,如果我使用作为截止,那么会有各种数据被认为是影响者的点。我决定测试删除这些数据点是否会对我的一般线性回归有所不同。我所有的静脉注射都保留了其重要性,并且没有明显的变化。
我应该保留所有数据点并使用1的截止率吗?或删除它们?
我一直在阅读库克的距离,以找出对我的回归影响较大的离群值。在库克的原始研究中,他说,将临界值设为1应该可以确定影响者。但是,其他各种研究也使用或作为截止值。
在我的研究中,我的残差都不是D大于1。但是,如果我使用作为截止,那么会有各种数据被认为是影响者的点。我决定测试删除这些数据点是否会对我的一般线性回归有所不同。我所有的静脉注射都保留了其重要性,并且没有明显的变化。
我应该保留所有数据点并使用1的截止率吗?或删除它们?
Answers:
我可能会选择带有完整数据集的原始模型。我通常认为这些事情有助于进行敏感性分析。就是说,他们将您指向要检查的内容,以确保您仅由于某些愚蠢的问题而不会得到给定的结果。在您的情况下,您有一些潜在的影响点,但是如果在没有这些影响点的情况下重新运行模型,您将得到实质上相同的答案(至少在您可能关心的方面)。换句话说,使用您喜欢的任何阈值-您只是将模型重新拟合为检查,而不是“真实”版本。如果您认为其他人将足够关注潜在的异常值,则可以报告两个模型拟合。你会说的是,
这是我的结果。可能有人担心这张图片的出现只是由于几次不寻常但很有影响力的观察。这些是同一模型的结果,但没有这些观察结果。没有实质性差异。
也可以删除它们并将第二个模型用作您的主要结果。毕竟,与原始数据集呆在一起就等于是假设与模型中的子集一样多的数据属于模型。但是人们可能会对您报告的结果持怀疑态度,因为从心理上说,某人很容易说服自己,而没有任何实际的腐败意图,因此要进行一系列事后的调整(例如删除一些观察结果)他们最期待看到的结果。通过始终使用完整的数据集,您可以避免这种可能性,并向人们(例如,审阅者)保证,这不是项目中正在发生的事情。
这里的另一个问题是人们最终“ 追逐泡沫 ”。当您删除一些潜在的异常值并重新运行模型时,最终结果将显示新的不同观察值作为潜在的异常值。您应该经历多少次迭代?对此的标准响应是,您应该保留原始的完整数据集,而是运行可靠的回归。同样,这可以理解为敏感性分析。