我们可以在预测间隔内做出概率陈述吗?


12

我已经阅读了该站点上有关置信区间和预测区间解释的许多精彩讨论,但是其中一个概念仍然有些令人费解:

考虑OLS框架,我们已经获得了拟合模型。给我们一个并要求预测它的响应。我们计算,作为奖励,我们还围绕我们的预测提供了95%的预测间隔,从而获得了线性模型中预测极限的公式。我们将此预测间隔称为PI。y^=Xβ^xxTβ^

现在,以下哪个(或两个都不是)对PI的正确解释是正确的?

  1. 特别是对于,位于PI内的可能性为95%。xy(x)
  2. 如果给我们大量的 s,则此计算PI的过程将覆盖95%的真实响应。x

线性回归预测间隔中的 @gung的措辞来看,似乎前者是正确的(尽管我很可能会误解。)解释1对我来说似乎是违反直觉的(在某种意义上,我们是从频繁分析中得出贝叶斯结论的)。如果它是正确的,是不是因为我们预测实现了的随机变量估计一个参数

(编辑)奖金问题:假设我们知道真正的是什么,即生成数据的过程,那么我们可以讨论任何特定预测的概率,因为我们只是查看吗?βϵ

我对此的最新尝试:我们可以将预测间隔“概念上分解”(非常宽松地使用)分为两部分:(A)围绕预测均值响应的置信区间,以及(B)只是分位数的间隔集合误差项的范围。(B)我们可以在知道真实的预测均值的前提下做出概率陈述,但总体而言,我们只能将预测区间视为围绕预测值的频繁CI。这有点正确吗?


我在stats.stackexchange.com/a/26704上写的答案表明,情况确实如此(根据大数定律)类似于(2),但肯定不是(1)。
ub

Answers:


5

首先,在使用单词概率时,常客在预测尚未出现随机片段的事物时使用单词概率没有问题。我们不喜欢置信区间的单词概率,因为真实参数没有改变(我们假设它是一个固定的值,尽管未知),并且该区间是固定的,因为它基于我们已经收集的数据。例如,如果我们的数据来自成年男性的随机样本,x是他们的身高,y是他们的体重,并且我们拟合了一般回归模型,那么在谈论置信区间时,我们就不会使用概率。但是,如果我想谈一谈从所有65英寸高的男性中随机选择某个体重在一定间隔内的65英寸高的男性的可能性,

因此,我想说的是,奖金问题的答案是“是”。如果我们知道足够的信息,则可以计算在一个间隔内看到ay值的概率(或找到一个具有所需概率的间隔)。

对于标记为“ 1”的语句。我要说的是,如果您在谈论间隔或概率时使用“近似”这样的词,那就可以了。就像您在奖金问题中提到的那样,我们可以将不确定性分解为关于预测中心的部分和关于真实均值周围的随机性的部分。当我们将它们组合起来以覆盖我们所有的不确定性(并假设我们的模型/正态性正确)时,我们将有一个区间,该区间可能会变得太宽(尽管也可能太窄),因此有一个新的随机选择点的可能性落入预测间隔的时间将不会恰好是95%。您可以通过仿真看到这一点。从具有所有参数已知的已知回归模型开始。从该关系中选择一个样本(跨越多个x值),进行回归拟合,并计算预测间隔。现在,再次从真实模型中生成大量新数据点,并将它们与预测间隔进行比较。我使用以下R代码做了几次:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

我运行了几次以上代码(大约10次,但是我没有仔细计数),大多数情况下,新值在区间中落入的比例在96%到98%范围内。我确实有一种情况,估计的标准偏差非常低,因此比例在93%到94%的范围内,而其余所有比例都在95%以上。因此,对于您的陈述1更改为“大约95%”(假设所有假设都是正确的,或者足够接近以涵盖大约),我将感到满意。

同样,陈述2需要一个“大约”或类似的值,因为要覆盖我们的不确定性,我们平均捕获的误差超过95%。


0

第二个更好。首先取决于其他已知信息。

使用一个随机示例,确实是“ 95%的间隔(在95%置信度下)将包括[插入变量]的真实均值”。

另一方面,如果结果显然是违反直觉的,则我们无法断言(1)。

例如,“我在95%置信度下的显着性检验表明身高和体重呈相关”。好吧,这显然是错误的,我们不能说存在“ 95%的可能性是真的”。实际上,考虑到先验知识,确实存在的可能性很小。但是,可以说“ 95%的此类测试得出正确的结果”是正确的。


1
这个答案似乎是在讨论置信区间而不是预测区间。
ub

@whuber相同的原则适用。我们实质上是在处理某个变量(“预测”变量)的置信区间。

2
固定值(如参数)和随机变量的值之间有重要区别。此外,当前问题的核心在于这种区别:关于(“未来”)随机结果的可能性可以说什么? 因此,将这个问题仅仅看作是关于信心的含义,似乎是不充分的,并且可能是令人误解的。
ub

@whuber帖子中的语句(2)仍不表示语句(1)。在我的示例中,与明显的直觉/背景知识背道而驰的预测并不意味着将来的结果有95%的机会落在PI中。的确,在95%的时间内,该过程将使PI包含将来的结果。但是有时可以检测到何时发生或未发生。

您是对的,但如果我正确阅读了您的评论,我怀疑它没有抓住重点。问题不是事实(根据设计),PI仅具有95%的机会涵盖未来价值的事实,也不在于附加数据(或直觉)可以提供更多信息的事实。我们面前的问题涉及是否可以根据未来值的条件概率(基于回归值)来解释PI。正如OP所指出的,这的确是对贝叶斯 PI 的解释,但对常任PI无效。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.