有一些困难是常见的置信区间的所有非参数引导估计(CI),一些是多与既有问题的“经验”(在所谓的“基本” boot.ci()
将R的功能boot
包和参考文献1)和“百分位数” CI估计值(如参考文献2所述),其中一些可能会因百分位数CI加剧。
TL; DR:在某些情况下,百分位数引导CI估计可能会充分发挥作用,但是如果某些假设不成立,则百分位数CI可能是最糟糕的选择,而经验/基本引导则是下一个最差的选择。其他引导CI估计可能更可靠,覆盖范围也更大。一切都会有问题。像往常一样,查看诊断图有助于避免仅接受软件例程的输出而导致的潜在错误。
引导程序设置
通常遵循参考文献的术语和论点。如图1所示,我们有一个数据的样本,这些样本是从共享累积分布函数独立且均匀分布的随机变量提取的。来自数据样本构成的经验分布函数(EDF)是。我们对人口的特征感兴趣,它由统计估计,样本中的值为。我们想知道估计,例如的分布。ÿ 我 ˚F ˚F θ Ť 吨Ť θ (Ť - θ )ÿ1个,。。。,ÿñÿ一世FF^θŤŤŤθ(T- θ )
非参数引导程序使用来自EDF采样来模拟来自采样,取每个大小为样本,并替换。从引导程序样本计算出的值用“ *”表示。例如,对自举样本j计算的统计量提供值。 ˚FřÑÿ我ŤŤ * ĴF^F[Rñÿ一世ŤŤ∗Ĵ
经验/基本与百分数自举CI
经验/基本引导程序使用来自的引导程序样本中的分布来估计自身描述的总体中的分布。因此,其CI估计基于的分布,其中是原始样本中统计量的值。- [R ˚F(Ť - θ )˚F (Ť * - 吨)吨(T∗− t )[RF^(T- θ )F(T∗− t )Ť
此方法基于自举的基本原理(参考文献3):
人口是样本,就像是自举样本。
相反,百分位数引导程序使用值本身的分位数来确定CI。如果的分布存在偏斜或偏差,则这些估计可能会大不相同。(T - θ )Ť∗Ĵ(T- θ )
假设存在一个观察到的偏差,使得:
ˉ Ť * = 吨+ 乙,乙
Ť¯∗= t + B ,
其中是的平均值。的第5个百分数和第95个百分数表示为和,其中是自举样本的均值,均为正数,可能会有所不同,以允许偏斜。基于第5个CI百分位数的估计将分别直接通过以下方式给出:牛逼 * Ĵ牛逼 * ĴŤ¯∗Ť∗ĴŤ∗Ĵ ˉ Ť *+δ2 ˉ Ť *δ1,δ2Ť¯∗- δ1个Ť¯∗+ δ2Ť¯∗δ1个,δ2
Ť¯∗- δ1个= 吨+ 乙- δ1个; Ť¯∗+ δ2= t + B + δ2。
第5和第95百分位数CI估计通过经验/基本自举的方法是分别(注释1,5.6当量,194页。):
2 吨- (T¯∗+ δ2)= t - B - δ2; 2 吨- (T¯∗- δ1个)= t − B + δ1个。
因此,基于百分位数的CI会错误地得出偏差,并且会在双偏置中心周围翻转置信范围的潜在不对称位置的方向。在这种情况下,自举产生的百分比CI不代表的分布。(T- θ )
在此页面上很好地说明了此行为,以引导统计数据具有负偏倚,以致基于经验/基本方法(直接包括适当的偏倚校正),原始样本估计值低于95%CI。围绕双负偏心排列的基于百分位数方法的95%CI实际上都低于原始样本的负偏点估计值!
应该永远不要使用百分位引导程序吗?
根据您的观点,这可能是高估或轻描淡写。如果您可以记录最小的偏差和偏斜,例如通过使用直方图或密度图可视化的分布,则百分比引导程序应提供与经验/基本CI基本上相同的CI。这些可能都比对CI的简单正态近似更好。(T∗− t )
但是,这两种方法都无法提供其他自举方法可以提供的覆盖范围的准确性。埃夫隆从一开始就认识到百分位数CI的潜在局限性,但他说:“大多数情况下,我们会满意地让例子的不同程度的成功说明一切。” (参考资料2,第3页)
随后的工作,例如由DiCiccio和Efron总结(参考资料4),开发了“通过经验/基本或百分位方法提供的方法,可将标准区间的准确性提高一个数量级”。因此,如果您担心间隔的准确性,则可能会认为不应该使用经验/基本方法或百分位数方法。
在极端情况下,例如直接从对数正态分布进行采样而不进行转换,如弗兰克·哈雷尔(Frank Harrell)所指出的,没有自举的CI估计值可能是可靠的。
是什么限制了这些和其他自举CI的可靠性?
几个问题可能会使自举的CI不可靠。有些适用于所有方法,有些则可以通过经验/基础或百分位方法以外的方法缓解。
首先,总的问题是经验分布代表人口分布。如果不是,则没有任何引导方法是可靠的。特别是,引导程序来确定接近于分布极值的任何东西都是不可靠的。在此站点的其他地方(例如,此处和此处)讨论了此问题。对于任何特定样本,尾部中可用的几个离散值可能无法很好地表示连续的尾部。一种极端但说明性的情况是尝试使用自举法从统一的估计随机样本的最大阶数统计量 ˚F ˚F ˚FF^FF^Fü[ 0 ,θ ]分布,很好地解释这里。请注意,自举95%或99%CI本身位于分布的尾部,因此可能会遇到这样的问题,尤其是在样本量较小的情况下。
其次,不能保证从采样任何数量的样本都将与从采样相同的分布。但是,该假设是自举的基本原理。具有理想属性的数量称为关键数量。正如AdamO解释的那样: ˚FF^F
这意味着,如果基础参数发生变化,则分布的形状只会移动一个常数,并且刻度不一定会发生变化。这是一个很强的假设!
例如,如果有偏差的是要知道从抽样很重要各地是一样的,从取样周围。这是非参数采样中的一个特殊问题。作为参考 1将其放在第33页:θ ˚F ŧFθF^Ť
在非参数问题中,情况更加复杂。现在,不可能(但并非绝对不可能)任何数量都可以成为关键。
因此,通常最好的方法是近似。但是,通常可以适当地解决此问题。例如,可以根据Canty等人的建议使用枢轴图来估计采样量与枢轴的接近程度。这些可以显示自举估计分布如何随变化,或者变换提供关键量程度如何。用于改进自举CI的方法可以尝试找到一个变换,使得更接近于枢轴,以估计变换尺度上的CI,然后变换回原始尺度。t(T∗− t )Ť(ħ (Ť *)- H ^ (吨))ħ (ħ (Ť *)- H ^ (吨))H(ħ (Ť∗)− h (t ))H(ħ (Ť∗)− h (t ))
该boot.ci()
功能提供了学生化的引导CI(由DiCiccio和Efron称为“ bootstrap- t ” )和 CI(经过校正和加速的偏斜,其中“加速度”处理了偏斜),具有“二阶准确度”,因为两者之间的差异期望的和达到的覆盖率(例如95%CI)约为,而经验/基本方法和百分位数方法只有一阶准确()(参考文献1,第212-3页;参考文献4)。但是,这些方法需要跟踪每个自举样本中的方差,而不仅仅是的各个值。 α ñ - 1 ñ - 0.5 Ť * ĴB C一种αñ− 1ñ− 0.5Ť∗Ĵ 被那些更简单的方法所使用。
在极端情况下,可能需要在自举样本本身中求助于自举,以对置信区间进行适当调整。参考文献第5.6节描述了这种“双重引导” 。1,以及该书中的其他章节,提出了减少其极端计算需求的方法。
Davison,AC和Hinkley,DV Bootstrap方法及其应用,剑桥大学出版社,1997年。
埃夫隆(Efron),B。Bootstrap方法:再次看一下折刀(Ann。统计员。7:1-26,1979。
Fox,J.和Weisberg,S. R中的Bootstrapping回归模型。R附录“应用回归R”的第二版(Sage,2011年)。截至2017年10月10日修订。
DiCiccio,TJ和Efron,B。引导置信区间。统计 科学 11:189-228,1996。
Canty,AJ,Davison,AC,Hinkley,DV和Ventura,V.Bootstrap诊断和补救措施。能够。J.统计 34:5-27,2006。