Answers:
想象一下适合某些数据的任何回归线。
现在,想象一个额外的数据点,离数据主体一段距离的离群值,但是位于该回归线上的某个地方。
如果要重新拟合回归线,则系数不会改变。相反,删除多余的异常值对系数的影响为零。
因此,如果异常点或杠杆点与其余数据和其余模型完全一致,则其影响为零。
对于“线”,请根据需要读取“平面”或“超平面”,但是两个变量和散点图的最简单示例就足够了。
但是,当您喜欢定义时-似乎经常倾向于过多地阅读它们-这是我最喜欢的离群值定义:
“异常值是相对于大多数样本而言会引起意外的样本值”(WN Venables和BD Ripley。2002。S.New York的现代应用统计:Springer,第119页)。
至关重要的是,情人眼中出乎意料,它取决于数据的某些默认或隐式模型。可能存在另一种异常值完全不足为奇的模型,例如,如果数据确实是对数正态或伽马而不是正态。
PS:我认为杠杆点不一定缺少邻近的观察结果。例如,它们可以成对出现。
很容易说明在简单线性模型的情况下高杠杆点可能不会产生影响:
蓝线是基于所有数据的回归线,红线忽略了绘图右上方的点。
这一点符合您刚刚提供的高杠杆点的定义,因为它与其余数据相距甚远。因此,回归线(蓝色的)必须靠近它。但是,由于其位置在很大程度上适合于其余数据中观察到的模式,因此其他模型可以很好地预测它(即红线在任何情况下都已经接近它),因此它没有特别的影响力。
将此与以下散点图进行比较:
在这里,图右侧的点仍然是一个高杠杆点,但是这次它并没有真正适合其余数据中观察到的模式。蓝线(基于所有数据的线性拟合)非常接近,但红线没有通过。包括或排除这一点会极大地改变参数估计:它具有很大的影响力。
请注意,您引用的定义和我刚才给出的示例可能似乎暗示,在某种意义上,高杠杆/影响点是单变量的“离群值”,拟合的回归线将接近具有最大影响力的点,但需要并非如此。
在最后一个示例中,右下角的观察值对模型的拟合具有(相对)较大的影响(通过红线和蓝线之间的差异再次可见),但它似乎仍然远离回归线同时在单变量分布中无法检测到(此处沿轴线用“地毯”表示)。