为什么不总是使用引导CI?


12

我想知道自举CI(以及Bca中的BCa)对正态分布数据的性能如何。似乎有很多工作要检查它们在各种类型的分布上的性能,但是在正态分布的数据上找不到任何东西。由于首先学习似乎很显然,所以我认为论文太旧了。

我使用R引导程序包进行了一些蒙特卡洛仿真,发现引导CI与精确的CI一致,尽管对于小样本(N <20),它们倾向于比较宽松(较小的CI)。对于足够大的样本,它们基本上是相同的。

这使我想知道是否有充分的理由不总是使用引导程序。鉴于评估分布是否正常的难度很大,并且存在许多陷阱,因此,不管分布如何,都不决定和报告引导配置项似乎是合理的。我了解不系统地使用非参数测试的动机,因为它们的功能较少,但是我的模拟告诉我,引导CI并非如此。它们甚至更小。

让我感到困扰的一个类似问题是,为什么不总是使用中位数作为集中趋势的度量。人们通常建议使用它来表征非正态分布的数据,但是由于中位数与正态分布数据的平均值相同,为什么要加以区别?如果我们可以摆脱确定分布是否正常的过程,这似乎是非常有益的。

我很好奇您对这些问题的想法,以及它们是否曾经被讨论过。参考将不胜感激。

谢谢!

皮埃尔


在此处查看有关均值和中位数的问题:stats.stackexchange.com/questions/96371/…–
Alexis

对于许多问题,重采样在计算上是不可行的。例如,如果您只是想为大型3D矩阵或较长时间序列计算CI。
乔纳2014年

Answers:


4

查看BCa间隔及其机制的动机(即所谓的“校正因子”)是有益的。BCa间隔是引导程序最重要的方面之一,因为它们是引导程序百分数间隔的更一般的情况(即,仅基于引导程序分布本身的置信区间)。

特别要看一下BCa间隔和Bootstrap百分位数间隔之间的关系:当加速度(第一个“校正因子”)和偏度(第二个“校正因子”)的调整都为零时,则BCa间隔恢复为典型的Bootstrap百分比间隔。

我认为始终使用引导程序并不是一个好主意。引导程序是一种强大的技术,具有多种机制(例如:置信区间,并且对于不同类型的问题(例如,存在异方差时的野生引导程序),引导程序会有不同的变化),用于针对不同的问题进行调整(例如:非正态性) ),但它取决于一个关键的假设:数据准确地代表了真实的人口。

这个假设虽然本质上很简单,但尤其是在样本量较小的情况下可能难以验证(可能是因为样本量很小,是对真实种群的准确反映!)。如果引导分布所基于的原始样本(以及随之而来的所有结果)不够准确,那么您的结果(以及基于这些结果的决定)将是有缺陷的。

结论:Bootstrap含糊不清,在应用前应谨慎行事。


2
“如果自举分布(以及由此产生的所有结果)所基于的原始样本不够准确,那么您的结果(以及您根据这些结果做出的决定)将有缺陷。” ->但是在这些情况下,引导程序CI的性能是否比分析替代方法差?
乔纳2014年

3
数据足以代表总体的假设并不仅仅限于引导程序:它通常涉及统计数据,因此,如果数据不足,那么所做的任何推断,引导推断或其他推断都具有误导性(错误的假设暗示任何结论!)。
mmmmmmmmmm 2014年

4
因此,此警告并非针对引导程序,而是针对推理,不是针对在另一种方法上使用引导程序的论点,而是将绝对的信念置于易错的方法上。我不知道在这种情况下它有什么意义。
乔纳2014年

抱歉,在该线程上有点晚了...... @ jona:这无关紧要,因为引导程序会进一步放大样本?因此,如果您的样本是不幸的人口表述失误,那么使用引导程序会使您离人口中心更远吗?这不是反对系统地自举的潜在理由吗?
sisdog
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.