有影响的残差与异常值


10

首先,我应该声明已经在该站点上搜索了答案。我或者没有找到可以回答我问题的问题,或者我的知识水平太低,以至于我没有意识到自己已经阅读了答案。

我正在为AP统计考试学习。我必须学习线性回归,主题之一是残差。它有一份第253页的统计和数据分析简介副本。

双变量数据集中的异常点是那些在方向或方向上与散点图中的大多数其他点都偏离的点xy

如果观察值的值与其余数据(在方向上与其余数据分开)相距甚远,则可能是有影响的观察。为了确定该观察结果是否确实具有影响力,我们评估该观察结果的去除是否对最小二乘法斜率或截距的值有很大影响。xx

如果观察具有较大的残差,则为异常值。离群值观察值在方向上远离最小二乘法线。y

Stattreck.com列出了四种根据残差确定异常值的方法:

与整体模式差异很大的数据点称为离群值。有四种方法可以将数据点视为异常值。

  1. 与其他数据点相比,它可能具有极限X值。
  2. 与其他数据点相比,它可能具有极高的Y值。
  3. 它可能具有极高的X和Y值。
  4. 即使没有极高的X或Y值,也可能与其余数据相距甚远。

这两个来源似乎相互冲突。谁能帮我消除困惑。另外,如何定义极端。如果数据点位于(Q1-1.5IQR,Q3 + 1.5IQR)之外,则AP Statistics使用该规则,这是一个异常值。我不知道如何仅通过残差图来应用它。

Answers:


5

与您的教科书相比,stattrek网站似乎对离群值和有影响力的点的描述要好得多,但是您只引用了一段短文,可能会引起误解。我没有那本特别的书,所以我无法在上下文中对其进行检查。但是请记住,您引用的教科书段落是“可能”。这也不是唯一的。请记住这些观点,stattrek和您的书不一定会不同意。但是,您的书确实在某种程度上具有误导性,因为它暗示(从这段简短的文章中)离群点和影响点之间的唯一区别是它们在x轴还是y轴上的偏离。那是不对的。

离群值的“规则”因上下文而异。您引用的规则只是经验法则,是的,并不是真正为回归而设计的。有几种使用它的方法。如果您想象每个x处有多个y值并检查残差,则可能更容易可视化。典型的教科书回归示例太简单了,以至于看不到该异常规则如何起作用,并且在大多数实际情况下,它是完全没有用的。希望在现实生活中,您可以收集更多的数据。如果有必要将离群值的分位数规则应用于回归问题,则他们应提供适当的数据。


谢谢您的回答,就像您所说的那样,令人讨厌的是,不同的书籍试图陈述这些规则,而没有真正说出它确实取决于数据。
MaoYiyi13年

1
实际上,我也说错了……这取决于理论,方法和数据……整个研究。
约翰

5

我同意约翰的观点。这里还有几点。有影响的观察是(严格地)影响参数估计的观察。Y值的小偏差会使估算的beta参数有很大的变化。在简单地将1个变量与另一个变量进行回归时,有影响力的变量恰好是X值与X均值相距较远的变量。在多元回归(几个自变量)中,情况更加复杂。您必须查看所谓的帽子矩阵的对角线,然后回归软件会为您提供。Google的“杠杆”。X(XX)1X

如教科书所述,影响力是设计点(X值)的函数。

注意,影响就是力量。在设计的实验中,假设您可以准确地测量相应的Y值,则需要有影响力的X值。这样,您将获得更多收益。

对我而言,离群值基本上是一个错误-也就是说,观察结果与其他数据没有遵循相同的模型。这可能是由于数据收集错误,或因为该特定主题在某种程度上是异常的。

由于某些原因,我不太喜欢stattrek对异常值的定义。Y和X中的回归不对称。将Y建模为随机变量,并假设X是固定的且已知。Y的怪异与X的怪异。影响力和局外人意味着不同的事物。通过查看残差图,无法检测到多元回归中的影响。对单个变量案例的异常值和影响的良好描述也应该使您也了解多个案例。

由于约翰的原因,我更加不喜欢您的教科书。

底线是有影响力的异常值是危险的。需要对其进行仔细检查和处理。


如果您来自以真实实验为标准的背景,那么您不喜欢stattrek回归解释是适当的。您的理由都适用于此。但是,如果您来自准实验设计更为普遍的背景,那么stattrek网站的相关性就更高。在这些情况下,x和y值通常都只是随机样本。
约翰,

@John想要通过AP统计考试的背景如何?什么是准实验设计?那是使用随机数表进行模拟吗?
MaoYiyi

1
我对AP统计信息一无所知。真正的实验是您操纵预测变量并分组以测试多个假设或对照组和实验组等的实验。准实验设计几乎与实验类似。因此,想象一下回归,其中x值为权重,y值为某种运动技能。您不操作任何一个变量,而是对两个变量进行随机采样。因此,普莱西迪亚(Pcicidia)对stattrek的批评对于真正的实验是相当有效的,但对准实验则不那么有效。
约翰

@John ...我确实来自设计实验被视为黄金标准的背景。实际上,我知道X和Y通常都是随机样本,这就引出了为什么要使用回归而不是某种形式的潜变量分析的问题。
Placidia 2013年

当您只有两个变量时::)有时候您有很好的理论来建议一件事预测另一件事,例如,身高和进入NBA的概率...都是随机样本。在具有一个或几个(特别是不相关的)线性关系的情况下,回归是好的。
约翰
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.