如何在多个插补数据集中合并自举的p值?


12

我担心的问题是,我想从乘归(MI)数据中引导p值来估计,但是我不清楚如何在MI集合中组合p值。θ

对于MI数据集,获得估计总方差的标准方法使用Rubin规则。有关合并MI数据集的评论,请参见此处。总方差的平方根用作的标准误差估计。但是,对于某些估计量,总方差没有已知的闭合形式,或者采样分布不正常。然后,统计量可能不是t分布的,甚至不是渐近的。θ / 小号ë θ θθ/se(θ)

因此,在完整数据的情况下,即使采样分布不是正态且其闭合形式未知,一种替代方法是引导统计信息以找到方差,p值和置信区间。在MI的情况下,有两个选择:

  • 跨MI数据集合并自举差异
  • 跨MI数据集合并p值或置信范围

然后,第一种选择将再次使用鲁宾规则。但是,如果具有非正态采样分布,则我认为这是有问题的。在这种情况下(或更一般而言,在所有情况下),可以直接使用自举p值。但是,在MI的情况下,这将导致多个p值或置信区间,需要将其跨MI数据集合并。θ

所以我的问题是:如何在多个估算数据集之间合并多个自举p值(或置信区间)?

我欢迎任何有关如何进行的建议,谢谢。


可能有帮助:丢失数据,归因和引导(Efron,1992年)statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly 2013年

@DLDahly嗯,我不熟悉的纸,但这个想法似乎是引导第一,然后进行多重填补。OP似乎正在引导来自MI数据集的估计。
tchakravarty

@fgnu实际上,通过引导程序获取估计总方差的标准过程是在每个MI数据集内引导方差,然后应用Rubin规则来合并跨MI数据集的自举方差。
tomka 2013年

Answers:


6

我认为这两种选择都会导致正确的答案。通常,我更喜欢方法1,因为它可以保留整个分布。

对于方法1,在 MI解决方案的每一个中引导参数次。然后,只需混合自举分布即可获得最终密度,该密度现在由样本组成,其中包括注入之间的差异。然后将其视为常规的自举样本以获取置信区间。将贝叶斯引导程序用于小样本。我不知道有任何调查此过程的仿真工作,这实际上是一个尚待研究的问题。m m k × mkmmk×m

对于方法2,请使用Licht-Rubin过程。请参阅如何在多个估算数据集中完成的测试中获得合并的p值?


+1-如果目标是了解MI数据集之间估计值的变异性,则我将在每个MI数据集内进行引导,并查看参数的总数和特定于MI的分布。
DL Dahly 2013年

@ Stef-van-Buuren似乎DL Dahly提出的建议等同于在MI集之间合并增强的方差。与这种“间接”方法相比,您还是喜欢一种方法(附加所有自举数据集)吗?
tomka 2013年

@tomka。我当然会像DL Dahly一样,研究插补分布的内部和之间。为了集成两种类型的分布,我们需要以某种方式将它们组合。我的建议是简单地混合它们。
Stef van Buuren

6

这不是我所熟悉的文献,但是解决此问题的一种方法可能是忽略以下事实:它们是自举的p值,而是查看有关在多个插补数据集上组合p值的文献。

在这种情况下,李,孟,拉古纳森和鲁宾(1991)适用。该过程基于每个估算数据集的统计数据,并使用因估算而造成的信息损失的度量值进行加权。他们遇到了与跨估算的联合统计分布有关的问题,并且做出了一些简化的假设。

与之相关的是孟(1994)

更新资料

Christine Licht,Ch。论文中描述了在多个估算数据集之间组合p值的过程4。她将这个想法归功于Don Rubin,该想法本质上是将p值转换为正态分布,然后可以使用z统计量组合的标准规则在MI数据集之间进行组合。


如果我了解李等。工作正常,它适用于您从每个MI集获得的统计信息。例如,如果您在每个集合上都获得PearsonChi²,则可以应用他们的规则将其组合起来以进行跨集合的推理。例如,也可以进行Wald测试。但是,在使用引导程序的情况下,您不会获得要汇总的统计信息(而只能是p值)。因此,我不确定Li等人中是否有问题。可以应用于自举p。
tomka 2013年

1
@tomka我已经更新了答案。
tchakravarty
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.