如何理解回归分析中的标准化残差?


9

根据“ 实例回归分析”,残差是响应值和预测值之间的差,因此,每个残差都有不同的方差,因此我们需要考虑标准化残差。

但是方差是针对一组值的,单个值怎么会有方差?


2
直接引用该教科书或(如果可以在线获得)引用它会有所帮助。即使一个单词失序或脱离上下文,也可能会迷失许多。(例如,残差通常被定义为预测和响应之间的差异,而不是相反。)
whuber

单个随机变量具有方差。残差是随机变量-它们是数据的函数。因此,单个残差(标准化或非标准化)具有方差。
来宾

#whuber教科书是“ Regression.Analysis.by.Example”,第89页。它讨论了各种残差。普通残差是响应预测。@来宾“单个随机变量有方差”,这是我不明白的,变量是样本的属性,不是吗?为什么样本中的单个值(例如残差)具有方差?
ccshao 2012年

这本书有作者吗?通常,这更容易找到。我认为您正在混淆样本方差和总体方差。在进行实验之前,残留物是未知的。响应是随机的,因此残差也是随机的,因为它是响应的函数。当我们谈论残差的方差时,我们谈论的是基础随机变量的方差。
MånsT

对于给您带来的不便,我们深表歉意。作者是SAMPRIT CHATTEFUEE和ALI S. HADI,《示例回归分析》,第四版。
ccshao 2012年

Answers:


9

我要说,从概率分布中随机抽取而来的单个数字(例如残差)是一个实现值,而不是一个随机变量。同样,我会说ñ 根据您的数据和模型拟合得出的残差 Ë=ÿ-ÿ^是一组已实现的值。这组数字可以粗略地概念化为来自基础分布的独立抽取ϵñμσ2。(但是,不幸的是,这里还有其他一些复杂情况。例如,您实际上并没有ñ 独立的信息,因为残差, Ë,必须满足两个条件: Ë一世=0X一世Ë一世=0

现在,给定一组数字,无论它们是残差还是其他任何东西,它们的确具有方差, Ë一世-˯2/ñ,但这没意思。我们关心的是能够对数据生成过程说些什么(例如,估计总体分布的方差)。使用前面的公式,我们可以通过替换ñ具有剩余的自由度,但这可能不是一个很好的近似值。这个话题很快就会变得非常复杂,但是有两个可能的原因可能是异方差性(即人口方差在不同水平X)和异常值的存在(即,给定的残差完全来自不同的总体)。几乎可以肯定,在实践中,您将无法估计得出异常值的总体方差,但是从理论上讲,它确实具有方差。我怀疑这些思路与作者的想法有关,但是,我应该注意,我还没有读过这本书。

更新: 重新阅读问题后,我怀疑报价可能是指X点的-值会影响拟合的回归线,从而影响与该点关联的残差的值。这里要把握的关键思想是杠杆。我在这里的答案中讨论了这些主题: 解释plot.lm()


1
谢谢!杠杆作用是我以前不了解的事情。对于x接近avg(x)的数据,几乎没有回归影响,因此方差很高。
ccshao
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.