这个问题是由我在这本研究生水平的统计课本中读到的东西触发的,并且在统计研讨会上的这次演讲中也(独立地)听到了。在这两种情况下,该语句都遵循“由于样本量很小,我们决定通过自举而不是(或与之一起)使用此参数方法进行估计”。
他们没有进入细节,但可能的理由如下:方法假定数据按照一定的参数分布。实际上,分布不完全是,但是只要样本大小足够大就可以。由于在这种情况下样本量太小,让我们切换到不做任何分布假设的(非参数)引导程序。问题解决了!
在我看来,这不是引导程序的用途。我是这样看的:当或多或少明显有足够的数据时,bootstrap可以给自己一个优势,但是没有封闭形式的解决方案可以获取标准误差,p值和类似的统计信息。一个经典的例子是从双变量正态分布中给定样本来获得相关系数的CI:存在闭式解,但是它是如此复杂,以至于自举更简单。但是,这并不意味着引导程序可以以某种方式帮助人们摆脱小样本的困扰。
我的看法正确吗?
如果您觉得这个问题很有趣,那么我还有另一个更具体的引导问题:
PS:我不禁分享一个“引导方法”的令人震惊的例子。我没有透露作者的名字,但他是老一辈的“ Quants”之一,他于2004年写了一本关于量化金融的书。
考虑以下问题:假设您有4个资产,每个资产有120个每月回报观察。目标是构建年度收益的联合4维cdf。即使对于单个资产,仅通过10年的观测也很难实现该任务,更不用说对4维cdf的估计了。但请放心,“引导程序”将为您提供帮助:获取所有可用的4维观测值,用替换对12个样本进行重新采样,然后将它们组合起来,以构建单个“引导”的4维年度回报矢量。重复执行1000次,然后发现,您获得了1000个年度回报的“引导样本”。将其用作大小为1000的iid样本,以进行cdf估计或从一千年的历史中得出的任何其他推论。