线性回归模型的置信度和预测区间


9

好吧,所以我试图理解线性回归。我有一个数据集,看起来还不错,但是我很困惑。这是我的线性模型摘要:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

因此,p值确实很低,这意味着不可能偶然获得x,y之间的相关性。如果我先绘制它,然后绘制回归线,则它看起来像这样:http : //s14.directupload.net/images/120923/l83eellv.png (将其作为图片显示,但是我-作为新用户-目前没有允许发布)蓝线=置信区间绿线=预测区间

现在,许多要点没有落入置信区间内,为什么会发生这种情况?我认为没有一个数据点位于回归线b / c上,它们彼此之间相距甚远,但是我不确定:这是一个真正的问题吗?它们仍然在回归线附近,您可以完全看到一个模式。但是够了吗?我试图弄清楚,但是我只是不断地问自己同样的问题。

到目前为止,我的想法是:置信区间表示,如果一遍又一遍地计算CI,那么在95%的时间里,真实均值落入CI中。因此:dp不会落入其中不是问题,因为这并不是真正的手段。另一方面,预测间隔表示,如果您一次又一次地计算PI,则95%的真实值会落入该间隔。因此,在其中(我确实拥有)要点很重要。然后,我读到PI始终必须具有比CI更大的范围。这是为什么?这是我所做的:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

然后通过以下方式绘制它:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

现在,如果我为其他数据计算CI和PI,则选择范围的大小无关紧要,我得到的行与上述完全相同。我不明白。这意味着什么?然后将是:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

对于新x,我选择了不同的顺序。如果该序列的观测值与回归变量不同,那么我会得到警告。为什么会这样呢?

Answers:


3

我了解您的一些问题,但其他问题尚不清楚。让我回答并陈述一些事实,也许这将消除您的所有困惑。

您的合身性非常好。置信区间应非常紧密。可以考虑两种类型的置信度区域:bsimultanoues区域,该区域旨在覆盖具有给定置信度水平的整个真实回归函数。

您正在查看的其他参数是拟合回归点的置信区间。它们仅旨在覆盖协变量给定值下的y拟合值。它们无意覆盖协变量其他值的y值。实际上,如果间隔非常紧密(如您所愿),那么当您远离协变量的固定值时,它们将无法覆盖许多数据点。对于这种类型的覆盖范围,您需要同时获得置信度曲线(上下限曲线)。

现在的确是这样,如果您在协变量的给定值上预测ay,并且希望与在协变量给定值下用于y的置信区间的预测区间的置信度相同,则区间将更宽。原因是该模型告诉您将增加可变性,因为新y将有其自己的独立误差,必须在区间中加以考虑。该误差分量不会基于拟合中使用的数据进入估计。


对不起,我还是不太明白。您解释了两种类型的置信区间,但是当您说“我正在看的那些”时,是什么意思?b / c我已经绘制了预测和置信区间,但在理解差异方面存在问题。另外,我在上一篇文章中添加了一些R命令,以阐明我在做什么
lisa 2012年

曲线不能明确是通过构造同时的置信度曲线获得置信带还是仅使各个置信区间平滑连接。如果它们是同时发生的,那么您将不会在曲线之外看到太多的拟合点。但正如我指出的那样,它可能会随着各个时间间隔而发生。我尚未查看包含R代码的编辑。
Michael R. Chernick 2012年

我对R不太了解,无法回答R的特定问题。我不知道R专家会告诉您的是置信度曲线和预测曲线是连接各个置信区间还是正在生成同时曲线。您的代码还会执行您打算执行的操作吗?
Michael R. Chernick 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.