好吧,所以我试图理解线性回归。我有一个数据集,看起来还不错,但是我很困惑。这是我的线性模型摘要:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
因此,p值确实很低,这意味着不可能偶然获得x,y之间的相关性。如果我先绘制它,然后绘制回归线,则它看起来像这样:http : //s14.directupload.net/images/120923/l83eellv.png (将其作为图片显示,但是我-作为新用户-目前没有允许发布)蓝线=置信区间绿线=预测区间
现在,许多要点没有落入置信区间内,为什么会发生这种情况?我认为没有一个数据点位于回归线b / c上,它们彼此之间相距甚远,但是我不确定:这是一个真正的问题吗?它们仍然在回归线附近,您可以完全看到一个模式。但是够了吗?我试图弄清楚,但是我只是不断地问自己同样的问题。
到目前为止,我的想法是:置信区间表示,如果一遍又一遍地计算CI,那么在95%的时间里,真实均值落入CI中。因此:dp不会落入其中不是问题,因为这并不是真正的手段。另一方面,预测间隔表示,如果您一次又一次地计算PI,则95%的真实值会落入该间隔。因此,在其中(我确实拥有)要点很重要。然后,我读到PI始终必须具有比CI更大的范围。这是为什么?这是我所做的:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
然后通过以下方式绘制它:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
现在,如果我为其他数据计算CI和PI,则选择范围的大小无关紧要,我得到的行与上述完全相同。我不明白。这意味着什么?然后将是:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
对于新x,我选择了不同的顺序。如果该序列的观测值与回归变量不同,那么我会得到警告。为什么会这样呢?