如何阅读库克的距离图?


40

有谁知道如何计算出第7、16和29点是否是有影响力的点?我在某处读到,因为库克的距离小于1,所以不是。我对吗?

在此处输入图片说明


1
有各种各样的意见。其中一些与观察数或参数数有关。这些已在en.wikipedia.org/wiki/…中进行了草绘。
ub

@whuber谢谢。在为我执行数据浏览时,这始终是灰色区域。上方的数据点16会极大影响模型结果,从而增加I型错误。
Platypezid 2012年

2
有人可能会辩称,它也会增加“ III类”错误,(通常和非正式地)这是与潜在概率模型的不适用性相关的错误。
ub

@whuber是的,非常正确!
Platypezid 2012年

Answers:


43

4/N4/(Nk1)Nk

John Fox(1)在他的回归诊断手册中,在给出数值阈值时相当谨慎。他建议使用图形,并仔细检查“ D值明显大于其余值”的点。Fox认为,阈值应仅用于增强图形显示。

在您的情况下,观察值7和16可能被认为具有影响力。好吧,我至少会仔细看看它们。观察值29与其他几个观察值基本没有不同。


(1)狐狸,约翰。(1991)。回归诊断:简介。贤者出版物。


9
+1清除摘要。我要补充一点,当从数据集中删除有影响的案例时,通常不会出现问题,因为参数估计值基本上保持不变:我们担心的是那些确实存在确实改变结果的案例。
ub

1
@lejohn非常感谢您的回复。Whuber的回答非常正确。这是非常有用的。可能我建议您在Wikipedia页面上突出显示Fox的观点和您的观点!
Platypezid 2012年

29

kk+1β0β

还有一点值得在这里提出。在观测研究中,通常很难在预测变量空间上进行统一采样,并且在给定区域中可能只有几个点。这样的观点可能与其他观点有所不同。有几个不同的案例可能会让人感到不适,但是在降级为异常值之前,需要考虑很多问题。预测变量之间可能确实存在相互作用,或者当预测变量值变得极端时,系统可能会转变为行为不同。此外,它们也许可以帮助您解开共线性预测变量的影响。影响力点可能是因祸得福。


6
+1“如果进行预测性建模,库克的距离可能对您更重要,而dfbeta在解释性建模中更重要”:这是非常有用的建议。
Anne Z. 2012年

嗨-有趣的讨论。但是,整合一个虚拟变量来衡量例如观测值16的影响是否合理?
Pantera'2

@Pantera我删除了16个,并比较了
省略

嗨-如果删除观察值,则应确保您具有“良好”的论据,例如,观察值测量错误。如果我们因为观察会给统计带来麻烦而扔掉观察,那么我们就接近数据挖掘了。
Pantera '02
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.