引导的利弊


11

我刚刚了解了自举的概念,并且想到了一个幼稚的问题:如果我们总是可以生成大量的数据自举样本,为什么还要费心去获取更多的“真实”数据呢?

我确实有一个解释,请告诉我我是否正确:我认为引导过程会减少方差,但是如果我的原始数据集是BIASED,那么无论有多少副本,我都将保持低方差和高偏差我在拿。


4
引导不创造更多的信息比已经在数据(和模型)......实际的数据可以给你更多的信息
Glen_b -Reinstate莫妮卡

2
我同意Glen_b不会产生更多信息,但是我不同意它可以给您带来更少的信息。正如我在回答中所说的那样,它并不总是能很好地工作,但是可以说对任何统计方法而言都是如此。
Michael R. Chernick

1
有趣的问题-也许一个相关的概念是为什么引导程序起作用?。了解这一点将有助于知道它何时有用。我认为自举是对抽样分布的正态近似的一种改进。它可以处理不太正常的偏离正常的情况。它的另一个吸引人的功能是您不需要进行分析/代数工作-复制可以为您完成此任务。
概率

Answers:


15

引导程序是一种进行推理的方法,不需要为总体分布假设参数形式。它不会将原始样本视为人口,甚至涉及涉及从原始样本中进行替换的样本。假设从大小为n的原始样本中进行替换采样就模仿了从较大的总体中获取大小为n的样本。它还具有许多变体,例如n个引导程序中的m个,它们从大小为n的样本(其中m <n)重新采样m次。引导程序的良好特性取决于渐近理论。正如其他人提到的那样,引导程序所包含的关于人口的信息并不比原始样本中提供的信息更多。因此,在小样本中有时效果不佳。

在我的Wiley于2007年出版的第二版《引导方法:从业人员指南》中,我指出了引导可能失败的情况。这包括不具有有限矩的分布,较小的样本量,根据分布估算极值并估计调查样本中的样本量(人口总数为N而采用大样本n)。在某些情况下,引导程序的变体可以比原始方法更好地工作。在某些应用中,m自n引导会发生这种情况。在判别分析中估计错误率的情况下,632自引导是对其他方法(包括其他自引导方法)的改进。

使用它的原因是,有时您不能依赖参数假设,并且在某些情况下,引导程序比其他非参数方法更有效。它可以应用于各种各样的问题,包括非线性回归,分类,置信区间估计,偏差估计,p值调整和时间序列分析等。


6

引导样本只能告诉您有关原始样本的信息,而不会提供有关真实人口的任何新信息。它只是一种用于构造置信区间等的非参数方法。

如果要获取有关总体的更多信息,则必须从总体中收集更多数据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.