如果已经从总体中通过随机样本获得了响应预测变量对,则可以使用case / random-x / your-first重采样方案。如果控制了预测变量,或者实验者设置了预测变量的值,则可以考虑使用残差/基于模型/固定X /秒重采样方案。
两者有何不同? Davison和Kounen在R中介绍了具有应用程序的引导程序,并对此问题进行了讨论(请参见第9页)。另请参阅 John Fox在本附录中的R代码,特别是对于random-x方案,第5页的boot.huber功能,对于fixed-x方案,第10页的boot.huber.fixed功能。虽然在 Shalizi的讲义中,这两种方案都适用于不同的数据集/问题,但Fox的附录说明了这两种方案可能经常产生的差别很小。
何时可以期望两者产生接近相同的结果?一种情况是正确地指定了回归模型,例如,没有未建模的非线性,并且满足了通常的回归假设(例如,id误差,没有异常值)。参见 Fox的书的第21章(上述带有R代码的附录间接地属于该书),尤其是第598页的讨论和练习21.3。题为“回归中的随机与固定重采样”。引用这本书
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
您还将从该讨论中了解到,为什么固定x引导程序隐式假设模型的功能形式正确(即使未对误差分布的形状做出任何假设)。
另请参阅德里克·贝恩(Derek Bain)为爱尔兰精算师协会所做的演讲的幻灯片12。它还说明了什么应被视为“相同的结果”:
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.