引导方法。为什么用“替换”重新采样而不是随机子采样?


11

近年来,bootstrap方法得到了极大的推广,我也经常使用它,特别是因为背后的原因很直观。

但这是我不明白的一件事。为什么埃夫隆选择通过替换进行重采样,而不是通过随机包含或排除单个观测值来简单地进行二次采样?

我认为随机二次抽样具有非常好的质量,理想地代表了现实生活中的情况,在这种情况下,我们在研究中得到的观察值是假设总体的子集。我没有看到在重采样期间增加观察数的优势。在实际情况下,没有观察到与其他观察相似的情况,尤其是对于复杂的多元情况。


3
用重新采样进行重新采样是因为在给定模型的情况下这是正确的事情。引导程序背后的模型是使用非参数最大似然来估计累积分布函数,然后从估计的累积分布函数中采样独立的观测值。考虑一下-从算法上讲,这是通过从原始样本中进行替换采样而获得的。
kjetil b halvorsen

Answers:


10

理解此选择的一种方法是将手头的样本视为您对潜在总体的最佳表示。您可能没有更多的总体样本可以从中采样,但是您确实具有这种特定的总体表示形式。从总体的表示中进行真正随机的重新采样意味着您必须进行替换采样,否则以后的采样将取决于初始采样的结果。在特定的自举样本中重复案例的存在表示具有与该特定重复案例的特征接近的特征的基础总体成员。正如您所建议的,也可以使用留一法或留几法,但这是交叉验证而不是自举。

我认为这几乎就是@kjetil_b_halvorsen的评论


我明白这一点。使引导样本中的各个观察结果彼此独立。在文献中确实存在基于二次采样的方法,请参见Politis,Romano和Wolf。使用n的固定子集m,选择不替换。他们如何避免您之前所说的陷阱?在他们的情况下,我也不明白为什么他们使用固定大小的子样本而不是随机子样本。
巴卡堡2015年

2
子采样方法试图实现与引导不同的功能。这些方法试图从数据样本中选择随机子集,而不是尝试从基础总体中模拟新的随机样本。不是说一个或另一个是错误的;而是一个错误。它们是具有特定优点和缺点的不同方法。
EdM 2015年

所以也许我应该问一个新的问题,关于推理统计中两种方法之间的区别。谢谢!
巴卡堡2015年

@Bakaburg看到了这个问题,以便对引导程序和交叉验证(这是一种特殊的二次采样)进行出色的介绍。
EdM

@Bakaburg引导程序方法是模拟来自较大种群的大小为n(不小于n的子集)的随机样本的重复独立绘制。这意味着可以想象,一个随机样本将包含大量来自母体群体的极小值或极高值,而这些值在我们的原始样本中往往不足。正如EdM所指出的那样,使用替换进行重新采样可以使单个样本观测值“代表”总体中具有相似值的多个观测值-这是一种获得总体分布的平滑近似值的方法。
RobertF
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.