置信区间和预测区间之间的差异

80

对于线性回归预测区间仍使用，以产生间隔。您还可以使用它来生成的置信区间。。两者有什么区别？ $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ $E[Y|x_0]$

— 题
source

7

不“生成间隔”。

\hat{E} [Y | x] = \hat{β_{0}} + {\hat{β}}_{1} x

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$

— Glen_b 2015年

在以上任何答案中，我都看不出两种方法之间存在差异的原因。回归结果通常基于参数学生的t分布参数进行估计，并且通常进行回归，尤其是从与数据回归模型的匹配不佳时，会导致残差未被学习，例如偏斜，但尾部通常很粗（如果并非总是如此），使得数据分散性的参数度量大于其相应的预期测量分位数。我发现有一条经验法则是有用的：如果我看到带有异常值，长尾巴和u的残差

— 卡尔，Carl

相关：获得线性模型中预测极限的公式。

— Scortchi

75

$\text{E}[y \mid x]$ $y$ $y$ $\text{E}[y \mid x]$ $x\hat{\beta}$

$\text{E}[y \mid x]$ $y$ $y$

$\beta$ $\text{E}[y \mid x]$ $y$ $\text{E}[y \mid x]$

因此，预测间隔将比置信区间宽。

— 查理
source

40

预测间隔和置信区间之间的差异是标准误差。

均值置信区间的标准误差考虑了采样带来的不确定性。从样本中计算出的线将与如果您拥有整个总体时所计算出的线不同，则标准误差会将这一不确定性考虑在内。

单个观测值的预测间隔的标准误差考虑到了像上面这样的采样所带来的不确定性，但也考虑了个体围绕预测均值的变异性。预测间隔的标准误差将比置信区间的标准误差宽，因此预测间隔将比置信区间的宽度宽。

— 格雷格·斯诺（Greg Snow）
source

39

我发现以下解释很有帮助：

置信区间告诉您确定平均值的程度。假设数据实际上是从高斯分布中随机抽样的。如果您进行多次，并计算每个样本的平均值的置信区间，那么您会期望其中大约95％的区间包含总体平均值的真实值。关键是置信区间告诉您真实总体参数的可能位置。

预测间隔告诉您可以在哪里看到下一个采样的数据点。假设数据实际上是从高斯分布中随机抽样的。收集数据样本并计算预测间隔。然后从总体中再采样一个值。如果您多次进行此操作，那么您会希望下一个值位于95％的样本的预测间隔内。关键是预测间隔可以告诉您值的分布，而不是确定总体的不确定性意思。

预测间隔必须考虑到已知总体平均值的不确定性以及数据分散。因此，预测间隔始终比置信区间宽。

来源：http：//www.graphpad.com/support/faqid/1506/

— 冯吉德
source

这里的“数据分散”是什么意思？

— 电话

2

@tel：显然是有差异的

— vonjd

36

一个是对未来观察的预测，另一个是预测的平均响应。我将给出更详细的答案，以期希望解释差异以及差异的来源，以及这种差异如何在更宽泛的区间内表现出来，以进行预测而不是置信度。

$x_0$

$x_0$ $x_0$
$y = x_{0}^{T} β + ϵ$ $y = x_0^T\beta+\epsilon$ $E(\epsilon)=0$ $\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$ $\epsilon$
$x_0$ $x_0$
$\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$

v a r (x_{0}^{T} \hat{β}) = x_{0}^{T} (X^{T} X)^{- 1} x_{0} σ^{2}

$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$

$x_0^T\hat{\beta} + \epsilon$ $\epsilon$ $\sigma^2$ $\hat{\beta}$

$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0} + 1}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$
$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0}}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$

$t_{n-p}^{\alpha/2}$ $n-p$ $\alpha/2$

希望这使预测间隔为什么总是更宽以及两个间隔之间的根本区别是什么更加清楚。该示例改编自Faraway，带有R，Sec的线性模型。4.1。

— jpgard
source

2

很高兴看到旧线程通过清晰而周到的响应得到了显着改进。欢迎来到我们的网站！

— whuber

这不应该是... x0 + 1 / n +1（对于预测间隔（1））和... x0 + 1 / n（对于置信区间（2）_ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/...

— user48956

12

简短答案：

甲预测间隔是与随机变量尚未观察到（预测）相关联的时间间隔。

甲置信区间是与参数相关联的时间间隔，并且是频率论概念。

在这里查看完整答案，来自R预测包的创建者Rob Hyndman。

— pablo_sci
source

3

该答案适用于无法完全理解先前答案的读者。让我们讨论一个具体的例子。假设您尝试根据身高，性别（男性，女性）和饮食习惯（标准，低碳水化合物，素食主义者）来预测人们的体重。目前，地球上有超过80亿人。当然，您会发现成千上万的人具有相同的身高和其他两个参数但体重不同。他们的体重差异很大，因为其中一些患有肥胖症，而另一些则可能挨饿。这些人中的大多数将处于中间位置。

一项任务是预测所有三个解释变量具有相同值的所有人的平均体重。在这里，我们使用置信区间。另一个问题是预测某些特定人的体重。而且我们不知道那个人的生活状况。在此必须使用预测间隔。它以同一点为中心，但必须比置信区间宽得多。

— 谢里希·库申科
source