我刚刚了解了自举的概念,并且想到了一个幼稚的问题:如果我们总是可以生成大量的数据自举样本,为什么还要费心去获取更多的“真实”数据呢?
我确实有一个解释,请告诉我我是否正确:我认为引导过程会减少方差,但是如果我的原始数据集是BIASED,那么无论有多少副本,我都将保持低方差和高偏差我在拿。
我刚刚了解了自举的概念,并且想到了一个幼稚的问题:如果我们总是可以生成大量的数据自举样本,为什么还要费心去获取更多的“真实”数据呢?
我确实有一个解释,请告诉我我是否正确:我认为引导过程会减少方差,但是如果我的原始数据集是BIASED,那么无论有多少副本,我都将保持低方差和高偏差我在拿。
Answers:
引导程序是一种进行推理的方法,不需要为总体分布假设参数形式。它不会将原始样本视为人口,甚至涉及涉及从原始样本中进行替换的样本。假设从大小为n的原始样本中进行替换采样就模仿了从较大的总体中获取大小为n的样本。它还具有许多变体,例如n个引导程序中的m个,它们从大小为n的样本(其中m <n)重新采样m次。引导程序的良好特性取决于渐近理论。正如其他人提到的那样,引导程序所包含的关于人口的信息并不比原始样本中提供的信息更多。因此,在小样本中有时效果不佳。
在我的Wiley于2007年出版的第二版《引导方法:从业人员指南》中,我指出了引导可能失败的情况。这包括不具有有限矩的分布,较小的样本量,根据分布估算极值并估计调查样本中的样本量(人口总数为N而采用大样本n)。在某些情况下,引导程序的变体可以比原始方法更好地工作。在某些应用中,m自n引导会发生这种情况。在判别分析中估计错误率的情况下,632自引导是对其他方法(包括其他自引导方法)的改进。
使用它的原因是,有时您不能依赖参数假设,并且在某些情况下,引导程序比其他非参数方法更有效。它可以应用于各种各样的问题,包括非线性回归,分类,置信区间估计,偏差估计,p值调整和时间序列分析等。