对于线性回归预测区间仍使用è [ ÿ | X ] = ^ β 0 + β 1 X,以产生间隔。您还可以使用它来生成E [ Y | Y的置信区间。x 0 ]。两者有什么区别?
对于线性回归预测区间仍使用è [ ÿ | X ] = ^ β 0 + β 1 X,以产生间隔。您还可以使用它来生成E [ Y | Y的置信区间。x 0 ]。两者有什么区别?
Answers:
预测间隔和置信区间之间的差异是标准误差。
均值置信区间的标准误差考虑了采样带来的不确定性。从样本中计算出的线将与如果您拥有整个总体时所计算出的线不同,则标准误差会将这一不确定性考虑在内。
单个观测值的预测间隔的标准误差考虑到了像上面这样的采样所带来的不确定性,但也考虑了个体围绕预测均值的变异性。预测间隔的标准误差将比置信区间的标准误差宽,因此预测间隔将比置信区间的宽度宽。
我发现以下解释很有帮助:
置信区间告诉您确定平均值的程度。假设数据实际上是从高斯分布中随机抽样的。如果您进行多次,并计算每个样本的平均值的置信区间,那么您会期望其中大约95%的区间包含总体平均值的真实值。关键是置信区间告诉您真实总体参数的可能位置。
预测间隔告诉您可以在哪里看到下一个采样的数据点。假设数据实际上是从高斯分布中随机抽样的。收集数据样本并计算预测间隔。然后从总体中再采样一个值。如果您多次进行此操作,那么您会希望下一个值位于95%的样本的预测间隔内。关键是预测间隔可以告诉您值的分布,而不是确定总体的不确定性意思。
预测间隔必须考虑到已知总体平均值的不确定性以及数据分散。因此,预测间隔始终比置信区间宽。
一个是对未来观察的预测,另一个是预测的平均响应。我将给出更详细的答案,以期希望解释差异以及差异的来源,以及这种差异如何在更宽泛的区间内表现出来,以进行预测而不是置信度。
希望这使预测间隔为什么总是更宽以及两个间隔之间的根本区别是什么更加清楚。该示例改编自Faraway,带有R,Sec的线性模型。4.1。
该答案适用于无法完全理解先前答案的读者。让我们讨论一个具体的例子。假设您尝试根据身高,性别(男性,女性)和饮食习惯(标准,低碳水化合物,素食主义者)来预测人们的体重。目前,地球上有超过80亿人。当然,您会发现成千上万的人具有相同的身高和其他两个参数但体重不同。他们的体重差异很大,因为其中一些患有肥胖症,而另一些则可能挨饿。这些人中的大多数将处于中间位置。
一项任务是预测所有三个解释变量具有相同值的所有人的平均体重。在这里,我们使用置信区间。另一个问题是预测某些特定人的体重。而且我们不知道那个人的生活状况。在此必须使用预测间隔。它以同一点为中心,但必须比置信区间宽得多。