影响点,高杠杆点和离群点的精确含义和比较?


15

来自维基百科

影响性观察是那些对回归模型的预测具有相对较大影响的观察

来自维基百科

杠杆点是在独立变量的极值或偏值处进行的那些观察(如果有的话),因此缺少相邻观察意味着拟合的回归模型将通过该特定观察。

为什么以下来自维基百科的比较

尽管影响点通常具有较高的杠杆作用,但高杠杆点不一定是影响点


2
下面的答案是好的。在这里阅读我的答案可能也有帮助:解释plot.lm()
gung-恢复莫妮卡

Answers:


13

想象一下适合某些数据的任何回归线。

现在,想象一个额外的数据点,离数据主体一段距离的离群值,但是位于该回归线上的某个地方。

如果要重新拟合回归线,则系数不会改变。相反,删除多余的异常值对系数的影响为零。

因此,如果异常点或杠杆点与其余数据和其余模型完全一致,则其影响为零。

对于“线”,请根据需要读取“平面”或“超平面”,但是两个变量和散点图的最简单示例就足够了。

但是,当您喜欢定义时-似乎经常倾向于过多地阅读它们-这是我最喜欢的离群值定义:

“异常值是相对于大多数样本而言会引起意外的样本值”(WN Venables和BD Ripley。2002。S.New York的现代应用统计:Springer,第119页)。

至关重要的是,情人眼中出乎意料,它取决于数据的某些默认或隐式模型。可能存在另一种异常值完全不足为奇的模型,例如,如果数据确实是对数正态或伽马而不是正态。

PS:我认为杠杆点不一定缺少邻近的观察结果。例如,它们可以成对出现。


谢谢!异常值和高杠杆点是同一概念吗?请注意,en.wikipedia.org / wiki / Partial_leverage
蒂姆

1
没有; 你还没有告诉我们“离群”的定义,但它的杠杆点的定义如下,他们不一定是异常值意义上的维纳布尔斯和里普利。(我建议您尝试使自己脱离Wikipedia。)另请参见@Gael的回复。
Nick Cox

1
“至关重要的是,情人眼里出奇的是,惊喜取决于数据的某些默认或显式模型。在另一种模型下,异常值根本就不足为奇,例如,如果数据确实是对数正态或伽马而不是正常。” 因此,可以通过某种模型来定义离群值,而不是使用高杠杆点和有影响力的点吗?
蒂姆(Tim)

1
在我阅读时,Venables和Ripley巧妙地提出了一个聪明的观点,并且颠覆了可以通过精确的正式陈述来定义离群值的天真想法。但是可以找到其他风格不同的治疗方法。相反,可以根据衡量杠杆和影响的方式来正式定义杠杆和影响。两种使用术语的方式并不一致。为了更好地了解什么是异常值,什么不是异常值,实际数据分析的经验要比阅读百科全书更多。
尼克·考克斯

Gael在2013年7月29日提及此评论,现在使用标识符@Gala。在撰写本文时,只有一个其他答案,但这可能会改变。
尼克·考克斯

20

很容易说明在简单线性模型的情况下高杠杆点可能不会产生影响:

高杠杆但影响力不大

蓝线是基于所有数据的回归线,红线忽略了绘图右上方的点。

这一点符合您刚刚提供的高杠杆点的定义,因为它与其余数据相距甚远。因此,回归线(蓝色的)必须靠近它。但是,由于其位置在很大程度上适合于其余数据中观察到的模式,因此其他模型可以很好地预测它(即红线在任何情况下都已经接近它),因此它没有特别的影响力。

将此与以下散点图进行比较:

高杠杆,高影响力点

在这里,图右侧的点仍然是一个高杠杆点,但是这次它并没有真正适合其余数据中观察到的模式。蓝线(基于所有数据的线性拟合)非常接近,但红线没有通过。包括或排除这一点会极大地改变参数估计:它具有很大的影响力。

请注意,您引用的定义和我刚才给出的示例可能似乎暗示,在某种意义上,高杠杆/影响点是单变量的“离群值”,拟合的回归线将接近具有最大影响力的点,但需要并非如此。

隐藏的高影响力点

在最后一个示例中,右下角的观察值对模型的拟合具有(相对)较大的影响(通过红线和蓝线之间的差异再次可见),但它似乎仍然远离回归线同时在单变量分布中无法检测到(此处沿轴线用“地毯”表示)。


谢谢!我们此处使用的高杠杆点是否与en.wikipedia.org/wiki/Partial_leverage中的 “杠杆通常定义为帽子矩阵的对角线”一致?
蒂姆(Tim)

很好的解释。如果您还提供所有三种情况的数据,将不胜感激。谢谢
MYaseen208 '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.