我们可以使用比原始样本小的引导样本吗?


12

我想使用自举来估计N = 250个公司和T = 50个月的面板数据集中的估计参数的置信区间。由于使用卡尔曼滤波和复杂的非线性估计,参数的估计在计算上是昂贵的(几天的计算)。因此,即使是自举的基本方法,也无法从原始样本中抽取(替换)B(成百上千个)M = N = 250个公司的B个样本并估计参数B次是不可行的。

因此,我正在考虑对引导程序样本使用较小的M(例如10)(而不是N = 250的完整大小),并通过从原始公司替换而随机抽取,然后使用缩放模型参数的引导程序估计协方差矩阵(在上面的示例中为1/25)来计算在完整样本上估算的模型参数的协方差矩阵。1NM

然后,可以基于正态假设或基于经验的估计置信区间,对于较小的样本,可以使用类似的程序进行缩放(例如,缩小。1NM

这种解决方法有意义吗?有理论结果证明这一点吗?还有其他解决方案吗?

Answers:


4

这个问题是很久以前提出的,但我发布了答复,以防将来有人发现。简而言之,答案是肯定的:您可以在许多设置中执行此操作,并且有理由通过来纠正样本大小的变化。这种方法通常被称为出自举,而且在绝大多数情况设置工作的``传统“””引导做,以及一些设置在它没有。MNMN

原因是许多引导程序一致性参数使用形式的估计量,其中是随机变量,而是基础分布。例如,对于样本均值,和。1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

许多引导程序一致性证明认为,给定有限样本和关联点估计,, ,其中是从真实基础分布中提取的,而是从替换而来的。N{x1,,xN}μ Ñ = Ť ÑX 1... X Ñμ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

但是,我们也可以使用长度较短样本,并考虑估计量 事实证明,当,估计器()具有与上述大多数设置相同的限制分布,其中()持有,有些则没有。在这种情况下,()和()具有相同的极限分布,从而激发了校正因子,例如样本标准偏差。M<N

(2)M(TM(X1,,XM)μ^N).
M,N1122112MN

这些参数都是渐近的,并且仅在极限。为此,请不要选择太小的,这一点很重要。有一些理论(例如下面的Bickel&Sakov)是关于如何根据选择最佳 以获得最佳理论结果的,但是在您的情况下,计算资源可能是决定因素。M,NM 中号ÑMN

对于某些直觉:在许多情况下,我们将称为,因此 可以认为有点像的引导程序中的个,其中和(我使用小写字母来避免符号混淆)。通过这种方式,使用的的个引导程序来模拟()的分布比传统的(中的个问题)更``正确''μ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=中号Ñ中号<ÑÑÑ3MNM<NNN)种类。在您的情况下,一个额外的好处是,它的计算成本更低。

如您所述,Politis和Romano是主要论文。我发现Bickel等人(1997年)也很好地概述了自举中的MN

资料来源

PJ Bickel,F Goetze,WR van Zwet。1997年。对少于观察结果进行重采样:收益,损失和损失补救措施。统计公报。n

PJ Bickel,萨科夫。2008年就选择的的OUF引导和置信区间的极值。统计公报。mmn


3

在阅读了有关该主题的更多信息之后,似乎在“子采样”下已经建立了理论,可以进行这种类型的置信区间估计。关键参考文献是“ Politis,DN; Romano,JP(1994)。基于最小假设下的子样本的大样本置信度区域。《统计年鉴》 22,2031-2050。”

想法是从N个初始数据点(在我的情况下为系列)中,为每个样本绘制M <N大小的样本,“对每个样本进行“不替换”(但对大小为B的不同样本进行替换),并估计使用这些样本和常用的自举方法获得感兴趣的参数。然后根据参数的基础分布的方差随M的变化率的变化率来缩放置信区间。在许多常见设置中,该比率为1 / M,但是如果我们用几个不同的M重复该过程,则可以凭经验估算值,并查看百分位数范围大小的变化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.