我试图了解与OLS线性回归相关联的置信带的曲线形状的起源,以及它与回归参数(斜率和截距)的置信区间之间的关系,例如(使用R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
似乎该频带与使用2.5%截距和97.5%斜率以及97.5%截距和2.5%斜率计算的线的极限有关(尽管不完全相同):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
我不明白的是两件事:
- 2.5%斜率和2.5%截距以及97.5%斜率和97.5%截距的组合怎么样?这些给出的线显然在上面绘制的带之外。也许我不了解置信区间的含义,但是如果在95%的情况下,我的估计值都在置信区间内,那么这似乎是可能的结果?
- 是什么决定上限和下限之间的最小距离(即,接近在上方添加的两条线相交的点)?
我猜这两个问题都会出现,因为我不知道/不了解这些频段的实际计算方式。
如何使用回归参数的置信区间来计算上限和下限(不依赖predict()或类似函数,即手动)?我试图破译R中的prepare.lm函数,但是编码超出了我的范围。对于任何适合统计初学者的相关文献或解释,我将不胜感激。
谢谢。