了解线性回归的形状和置信带的计算


33

我试图了解与OLS线性回归相关联的置信带的曲线形状的起源,以及它与回归参数(斜率和截距)的置信区间之间的关系,例如(使用R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

在此处输入图片说明

似乎该频带与使用2.5%截距和97.5%斜率以及97.5%截距和2.5%斜率计算的线的极限有关(尽管不完全相同):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

在此处输入图片说明

我不明白的是两件事:

  1. 2.5%斜率和2.5%截距以及97.5%斜率和97.5%截距的组合怎么样?这些给出的线显然在上面绘制的带之外。也许我不了解置信区间的含义,但是如果在95%的情况下,我的估计值都在置信区间内,那么这似乎是可能的结果?
  2. 是什么决定上限和下限之间的最小距离(即,接近在上方添加的两条线相交的点)?

我猜这两个问题都会出现,因为我不知道/不了解这些频段的实际计算方式。

如何使用回归参数的置信区间来计算上限和下限(不依赖predict()或类似函数,即手动)?我试图破译R中的prepare.lm函数,但是编码超出了我的范围。对于任何适合统计初学者的相关文献或解释,我将不胜感激。

谢谢。


4
您在下面有两个不错的答案。如果您需要更多信息,它可能会帮助您在这里阅读我的答案:线性回归预测间隔,它与预测间隔有关,但是思想非常相似。
gung-恢复莫妮卡

2
这篇文章中给出了详细的直观解释:线性回归中预测值的置信区间形状
Glen_b -Reinstate Monica 2014年

TA提供有用的答案和出色的链接。
大卫

Answers:


19

XsY^X)是手算(Yech! ),使用:

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X)是纯手工计算(双yech!使用):

sY|X=i=1n(YiY^)2n2

Y^±tν=n2,α/2sY^

请记住,关于回归线的置信带与关于回归线的预测带不同的野兽(预测不确定性更大)YX

β^α^


1
是否有教科书解释这些公式的来源?
Michael Goerz '18年

1
@MichaelGoerz任何涵盖普通最小二乘线性回归的入门统计,生物统计学,计量经济学等教科书都应具备。
亚历克西斯

我有Wasserman-所有统计资料,James等-统计学习简介,还有Hastie等。-统计学习的要素。我还没有找到任何线性回归置信带的方程式。您是否有这些书或其他广泛使用的书的章/序号?
Michael Goerz '18年

2
您提到的书都不是Alexis正在讨论的书。如果我没记错的话,福克斯(Fox)关于应用回归的书中有它。
Glen_b-恢复莫妮卡

1
@MichaelGoerz和M. Pagano和K. Gauvreau(2000)一样。生物统计原理。达克斯伯里出版社,加利福尼亚州太平洋格罗夫,第二版和南非格兰兹(2011)。生物统计入门。McGraw-Hill Medical,纽约,纽约,第7版,即使它们不是回归特定的文本。
亚历克西斯

16

好问题。了解这些概念很重要,而且它们并不简单。

y¯y¯y¯

当我们组合所有置信区间时,对于每个可能的x,它都会给我们提供您在输出中看到的灰色带。

从功能上来说,这意味着我们有95%的信心,真正的回归线位于那个灰色地带。

由于置信带是使用每个点的95%置信区间计算的,因此它与截距的95%CI密切相关。实际上,在x = 0时,灰色区域的边缘将与截距的95%CI完全重合,因为这就是我们生成置信带的方式。这就是为什么您在上方添加的线将灰色带的边缘向左打。

但是,坡度略有不同。正如您在上面看到的,它确实有助于极限,但是斜率和截距在线性回归中不可分离。因此,您不能真正说“如果截距为CI范围的最小值,并且斜率也为最小值,该怎么办?” 这条线会产生很多x都远远超出我们95%CI的点。这意味着我们有95%的信心不是我们真正的回归线。

x¯sy^x(xx¯)x=x¯

这里有一个不错的简报可以帮助您直观地了解其中一些内容:http : //www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
我想我已将其修复-用ybars代替了yhats。那更正确吗?我总是搞砸了。
邓肯2014年

助教。我仍然不清楚的一件事是如何使以下两个语句保持一致:“从功能上来说,这意味着我们有95%的信心确定真正的回归线位于该灰色区域内。” vs“关于截距和斜率的置信区间是其他数量。” 如果第一个陈述正确,则截距和斜率的CI与上面绘制的谱带之间必须存在某种(数学上的)关系吗?我想这与我的问题的一部分有关:如何使用斜率和截距的CI来计算(如果可能)上方的频带?
大卫

1
x¯

不错的可以理解的帖子和不错的链接!+1
森林生态学家
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.