首先,我应该声明已经在该站点上搜索了答案。我或者没有找到可以回答我问题的问题,或者我的知识水平太低,以至于我没有意识到自己已经阅读了答案。
我正在为AP统计考试学习。我必须学习线性回归,主题之一是残差。它有一份第253页的统计和数据分析简介副本。
双变量数据集中的异常点是那些在方向或方向上与散点图中的大多数其他点都偏离的点
如果观察值的值与其余数据(在方向上与其余数据分开)相距甚远,则可能是有影响的观察。为了确定该观察结果是否确实具有影响力,我们评估该观察结果的去除是否对最小二乘法斜率或截距的值有很大影响。
如果观察值具有较大的残差,则为异常值。离群值观察值在方向上远离最小二乘法线。
Stattreck.com列出了四种根据残差确定异常值的方法:
与整体模式差异很大的数据点称为离群值。有四种方法可以将数据点视为异常值。
- 与其他数据点相比,它可能具有极限X值。
- 与其他数据点相比,它可能具有极高的Y值。
- 它可能具有极高的X和Y值。
- 即使没有极高的X或Y值,也可能与其余数据相距甚远。
这两个来源似乎相互冲突。谁能帮我消除困惑。另外,如何定义极端。如果数据点位于(Q1-1.5IQR,Q3 + 1.5IQR)之外,则AP Statistics使用该规则,这是一个异常值。我不知道如何仅通过残差图来应用它。