从分层数据中获取并解释自举的置信区间


10

我对获得数量X的自举置信区间很感兴趣,因为该数量在10个人中各有10次测量。

一种方法是获取每个人的均值,然后重新引导均值(例如,用替换对均值进行重新采样)。

另一种方法是在自举过程的每次迭代中执行以下操作:在每个个体内,用替换对那个个体的10个观察值重新采样,然后为那个个体计算一个新的均值,最后计算一个新的组均值。在这种方法中,原始数据集中观察到的每个个体在引导程序的每次迭代中总是对组均值有所贡献。

最后,第三种方法是将上述两种方法结合起来:对个体进行重新采样,然后在这些个体内进行重新采样。此方法与先前的方法不同之处在于,它允许同一个人在每次迭代中对组均值贡献乘数,尽管由于每个贡献都是通过独立的重采样过程生成的,所以这些贡献可能会彼此略有不同。

在实践中,我发现这些方法对置信区间的估计不同(例如,使用一个数据集,我发现第三种方法的置信区间要比前两种方法大得多),所以我很好奇每种方法可能是什么解释代表。

Answers:


7

您的第一种方法是在S CI之间。如果您想在S范围内进行测量,那是错误的方法。

第二种方法将生成一个仅适用于那10个人的S CI内部。

最后一种方法是针对S CI的正确方法。CI的任何增加是因为您的CI更能代表可应用于总体的CI,而不是那10个S。


6

根据Davison和Hinckley(“ Bootstrap方法及其应用”,1997年,第3.8节),第三个算法是保守的。他们提倡第四种方法:简单地对主题进行重采样。


1
有趣的是,我将不得不查找该参考。您确定是“第四种”方法吗?我列出的第一种方法似乎描述了“仅对主题进行重采样”。
Mike Lawrence

1
是的,确实如此,但是它描述了对主题均值的重新采样。D&H提倡对主题进行重新采样并拟合原始模型。
Andrew Robinson 2010年

2
您可能还希望看到最近发布的文章:任,十全,赖,洪,童,文静,阿明扎德,莫斯塔法,侯,学章和赖升汉(2010)“用于分层数据的非参数自举”,《应用统计》, 37:9,1487年-1498年
安德鲁·罗宾逊,2010年

2
@迈克:对整个案件进行重采样是调查统计人员在引导时所做的事情。确实,这是一个不同的过程,仅在以下情况下才等效于您的“第一种”方法:(i)您仅估计均值,并且(ii)数据未加权和平衡。又见citeulike.org/user/ctacmo/article/1334050citeulike.org/user/ctacmo/article/1475866citeulike.org/user/ctacmo/article/582039
StasK,2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.