使用Bootstrap估计回归系数置信区间的两种方法

我正在对数据应用线性模型：

ÿ_{一世} = β_{0} + β_{1个} X_{一世} + ϵ_{一世} ， ϵ_{一世} 〜 ñ （ 0 ， σ^{2} ） 。

$y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}).$

我想使用自举方法来估计系数（，）的置信区间（CI）。我可以通过两种方式应用bootstrap方法： $\beta_{0}$ $\beta_{1}$

配对响应预测器样本：对对进行随机重采样，并将线性回归应用于每次运行。后跑，我们得到的估计系数的集合。最后，计算的分位数。 $y_{i}-x_{i}$ $m$ ${\hat{\beta_{j}}}, j=1,...m$ ${\hat{\beta_{j}}}$
样本误差：首先对原始观测数据应用线性回归，从该模型中我们获得和误差。然后，对误差随机重采样，并使用和。再次应用线性回归。后跑，我们得到估计coefficeints集合。最后，计算的分位数。 $\hat{\beta_{o}}$ $\epsilon_{i}$ $\epsilon^{*}_{i}$ $\hat{\beta_{o}}$ $y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}$ $m$ ${\hat{\beta_{j}}}, j=1,...,m$ ${\hat{\beta_{j}}}$

我的问题是：

这两种方法有何不同？
在哪种假设下这两种方法给出的结果相同？

regression bootstrap

— 天天辰
source

我个人不会将其用作默认方法，而是会推荐基本的引导置信区间。参见第 www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf第8页。我一直在对二进制逻辑模型进行很多模拟，并且发现使用基本自举比使用百分位或BCa自举具有更好的置信区间覆盖范围。

— Frank Harrell

@FrankHarrell要明确，通过“基本”您是指非参数引导程序吗？

— ndoogan

（1）是引导程序百分位非参数置信区间，不是基本引导程序。请注意，从进行采样是无条件的引导程序，它比对残差重新采样的有条件的引导程序更无需假设。

(x, y)

$(x,y)$

— Frank Harrell

我确实不是专家，但据我所知，1）通常被称为“案例重采样”，而2）被称为“残留重采样”或“ fixed- ”重采样。该方法的基本选择并不意味着在程序后如何计算置信区间的方法。我主要从John Fox的教程获得此信息。据我所知，在任何一个引导程序之后，您都可以计算基本的引导程序CI（例如in ）。还是我在这里想念任何东西？

x

$x$ boot.ci(my.boot, type="basic")R

— COOLSerdash

是的，您可以执行群集引导。这是在R rms validate和calibrate函数中实现的。

— Frank Harrell

如果已经从总体中通过随机样本获得了响应预测变量对，则可以使用case / random-x / your-first重采样方案。如果控制了预测变量，或者实验者设置了预测变量的值，则可以考虑使用残差/基于模型/固定X /秒重采样方案。

两者有何不同？ Davison和Kounen在R中介绍了具有应用程序的引导程序，并对此问题进行了讨论（请参见第9页）。另请参阅 John Fox在本附录中的R代码，特别是对于random-x方案，第5页的boot.huber功能，对于fixed-x方案，第10页的boot.huber.fixed功能。虽然在 Shalizi的讲义中，这两种方案都适用于不同的数据集/问题，但Fox的附录说明了这两种方案可能经常产生的差别很小。

何时可以期望两者产生接近相同的结果？一种情况是正确地指定了回归模型，例如，没有未建模的非线性，并且满足了通常的回归假设（例如，id误差，没有异常值）。参见 Fox的书的第21章（上述带有R代码的附录间接地属于该书），尤其是第598页的讨论和练习21.3。题为“回归中的随机与固定重采样”。引用这本书

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

您还将从该讨论中了解到，为什么固定x引导程序隐式假设模型的功能形式正确（即使未对误差分布的形状做出任何假设）。

另请参阅德里克·贝恩（Derek Bain）为爱尔兰精算师协会所做的演讲的幻灯片12。它还说明了什么应被视为“相同的结果”：

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.

— 冬眠
source