线性回归中预测值的置信区间形状

69

我注意到，线性回归中预测值的置信区间在预测器的平均值附近趋于狭窄，在预测器的最小值和最大值附近趋于胖。这可以从以下4个线性回归的图中看出：

在此处输入图片说明

我最初认为这是因为大多数预测变量的值都集中在预测变量的均值附近。但是，我然后注意到，即使许多的值集中在预测变量的极值附近，也会出现置信区间的狭窄中间，如左下方线性回归所示，预测变量的哪些值集中在预测值的最小值附近。预测变量。

有谁能解释为什么线性回归预测值的置信区间在中间趋于狭窄而在极端处趋于肥胖？

— 卢西亚诺
source

86

我将以直觉的方式讨论它。

回归中的置信区间和预测区间都考虑到了截距和斜率不确定的事实-您可以从数据中估算值，但总体值可能会有所不同（如果您使用新样本，则估算值会有所不同）值）。

一条回归线将通过，并且最好集中讨论围绕该点的适合度的更改-也就是说，考虑（在此公式中，）。 $(\bar x, \bar y)$ $y= a + b(x-\bar x)$ $\hat a = \bar y$

如果直线经过该点，但是斜率略高或略低（即，如果直线的平均高度是固定的，但斜率有些不同），那将是什么？看起来像？ $(\bar x, \bar y)$

您会看到新线将在末端附近从当前线移动到中间附近，从而形成一种倾斜的X，该X线在均值处交叉（就像下面的每条紫色线相对于红线一样）；紫色线代表估算的坡度两个标准误差。 $\pm$

在此处输入图片说明

如果您绘制了这样一条线的集合，其斜率与估计值略有不同，那么您会看到“扇出”端附近的预测值分布（例如，想象两条以灰色阴影显示的紫色线之间的区域，因为我们再次采样并在估计的斜率附近绘制了许多这样的斜率；通过在点（）上自举一条线，我们可以感觉到这一点。这是使用带有参数引导程序的2000重采样的示例： $\bar{x},\bar{y}$

相反，如果您考虑常数的不确定性（使线接近但不完全通过），则会使线上下移动，因此任意的均值区间将坐在拟合线的上方和下方。 $(\bar x, \bar y)$ $x$

在此处输入图片说明

（这里的紫色线是估计线两侧的常数项的两个标准误差）。 $\pm$

一次执行两个操作时（线可能会向上或向下一点，斜率可能会稍微变陡或变浅），则由于的不确定性，您会得到一定的扩展常数，并且由于斜率的不确定性，您会得到一些额外的扇形，它们之间会产生曲线的特征双曲线形状。 $\bar x$

这是直觉。

现在，如果您愿意，我们可以考虑一些代数（但这不是必需的）：

它实际上是这两个效果的平方和的平方根-您可以在置信区间的公式中看到它。让我们来构建片段：

的与标准误差已知是（记住这里是的期望值在的平均，不是通常的截距，它是一个平均的只是标准误差）。这是线的平均位置（）的标准误差。 $a$ $b$ $\sigma /\sqrt{n}$ $a$ $y$ $x$ $\bar x$

的与标准误差已知的是。将某个值处的斜率不确定性的影响乘以您与平均值（）的距离（因为水平的变化是斜率的变化乘以您移动的距离），得出。 $b$ $a$ $\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$ $x^*$ $x^*-\bar x$ $(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$

现在，总体效果只是这两个事物的平方和的平方根（为什么？因为不相关事物的方差增加了，并且如果以形式编写行，和的估计值是不相关的，因此总体标准误差是总体方差的平方根，而方差是组成部分的方差之和-即 $y= a + b(x-\bar x)$ $a$ $b$

$\sqrt{(\sigma /\sqrt{n})^2+ \left[(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\right]^2 }$

进行一些简单的操作即可得出处的平均值估计的标准误差的常用术语： $x^*$

$\sigma\sqrt{\frac{1}{n}+ \frac{(x^*-\bar x)^2}{\sum_{i=1}^n (x_i-\bar{x})^2} }$

如果将其绘制为的函数，您会看到它形成了一条曲线（看起来像一个微笑），其最小值在，随着移开，该曲线会变大。这就是从拟合线中添加/减去的值（嗯，为了获得所需的置信度，将其乘以倍数）。 $x^*$ $\bar x$

[在预测间隔的情况下，由于工艺的变化，位置也会发生变化；这增加了另一个可上下移动极限的项，从而扩展了更宽的范围，并且由于该项通常控制平方根下的总和，因此曲率不太明显。]

— Glen_b
source

感谢Glen_b，这非常直观。信心区间是在考虑什么呢？

— luciano 2014年

1

公认的答案确实带来了必要的直觉。它只错过了结合线性和角度不确定性的可视化效果，这很好地回溯了问题中的曲线。所以就到这里。让我们把a'和b'的不确定性a，并b分别，数量通常由任何流行的统计数据包退换。然后，除了最佳拟合a*x + b，我们还绘制了四条可能的线（在这种情况下为1个协变量x）：

(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'

这是下图中的四根平行线。中间的黑色粗线表示没有不确定性的最佳拟合。因此，要绘制“双曲线”阴影，应该将这四条线的最大值和最小值相加，实际上这是四条线段，那里没有曲线（我想知道这些方差图绘制的弯曲程度如何，似乎没有对我而言准确）。

我希望这可以为@Glen_b已经不错的答案添加一些内容。

— Ouranos
source