绝对不应该使用百分位引导程序吗?


31

在MIT OpenCourseWare注释(2014年春季,18.05概率与统计简介)中(当前可在此处获取)中指出:

引导百分位数方法由于其简单性而具有吸引力。但是,这取决于的引导程序分布,该引导分布基于特定的样本,它是真实分布的良好近似。赖斯谈到百分位数方法时说:“尽管这个具有置信度限制的自举抽样分布的分位数的直接方程最初看起来很吸引人,但其原理有些模糊。” [2]简而言之,不要使用自举百分位数方法。请改用经验引导程序(我们已经对这两种方法进行了说明,希望您不要将经验引导程序与百分位数引导程序混淆)。 ˉ Xx¯x¯

[2] John Rice,《数学统计和数据分析》,第2版,第2页。272

经过一番在线搜索之后,这是我发现的唯一引述,它完全表明不应使用百分位数引导程序。

我记得Clarke等人从“ 数据挖掘和机器学习原理和理论 ”一文中读到的内容。是引导的主要理由是 其中是经验CDF。(我不记得除此之外的细节。) ˚F Ñ

1ni=1nF^n(x)pF(x)
F^n

确实不应该使用百分位引导程序方法吗?如果是这样,那么当不一定知道时(即,没有足够的信息可用于执行参数自举),有什么替代方案?F


更新资料

由于需要澄清,因此这些MIT注释中的“经验引导程序”涉及以下过程:它们计算和其中是对和的完整样本估计值,得出的估计置信区间为。δ1=(θ^θ^)α/2θ * θ θ θ [ θ - δ 2θ - δ 1 ]δ2=θ^-θ^1个-α/2θ^θθ^θ[θ^-δ2θ^-δ1个]

从本质上讲,主要思想是:经验自举估计与点估计和实际参数之间的差异成正比的量,即,并使用该差异得出较低的和CI上限。θ^-θ

“百分比引导程序”指的是:使用作为置信区间对于。在这种情况下,我们使用自举法来计算感兴趣参数的估计值,并将这些估计值的百分位数作为置信区间。θ[θ^α/2θ^1个-α/2]θ


2
我对您的更新进行了大量编辑。请检查我的编辑是否合理。您在Efron的书中引述的内容令人困惑,因为Efron所描述的内容与MIT所称的“经验引导程序”不符。因此,我只剩下对MIT笔记的描述。顺便说一句,我对他们对“经验式引导程序”的描述感到困惑:在第6页的最上方,它说“因为位于第90个百分位...”-我不知道不明白这一点。从示例中可以清楚地看到,配置项的左侧是减去第90个百分位数,即。 δ 2δ.1δ2
变形虫说恢复莫妮卡

2
@amoeba您的编辑是正确的。感谢您的帮助。我认为MIT笔记存在一些问题;他们对百分位数引导程序存在的困难的描述不是很清楚,他们对此的争论主要是对权威的诉求。我无法针对百分位数引导程序重现他们的最后一个数值示例。正如您所指出的那样,不要以为他们在解决这个有用的问题时会像我们一样仔细地处理一些细节,因此他们的文本可能存在一些缺陷。
EdM

看一下MIT的注释,我看不出作者如何在[37.4,42.4]的第9节“自举百分法(不应使用)”中获得置信区间。他们使用的样本似乎与第6节中进行比较的样本不同。如果我们取第5页底部报告的δ∗ = x ∗ − x的样本,并加回样本平均值40.3并取CI,则得到的极限为[38.9,41.9],宽度等于他们在[38.7,41.7]的第6节中报告了3个限制。
6

Answers:


21

有一些困难是常见的置信区间的所有非参数引导估计(CI),一些是多与既有问题的“经验”(在所谓的“基本” boot.ci()将R的功能boot参考文献1)和“百分位数” CI估计值(如参考文献2所述),其中一些可能会因百分位数CI加剧。

TL; DR:在某些情况下,百分位数引导CI估计可能会充分发挥作用,但是如果某些假设不成立,则百分位数CI可能是最糟糕的选择,而经验/基本引导则是下一个最差的选择。其他引导CI估计可能更可靠,覆盖范围也更大。一切都会有问题。像往常一样,查看诊断图有助于避免仅接受软件例程的输出而导致的潜在错误。

引导程序设置

通常遵循参考文献的术语和论点如图1所示,我们有一个数据的样本,这些样本是从共享累积分布函数独立且均匀分布的随机变量提取的。来自数据样本构成的经验分布函数(EDF)是。我们对人口的特征感兴趣,它由统计估计,样本中的值为。我们想知道估计,例如的分布。ÿ ˚F ˚F θ Ť Ť θ Ť - θ ÿ1个ÿñÿ一世FF^θŤŤŤθŤ-θ

非参数引导程序使用来自EDF采样来模拟来自采样,取每个大小为样本,并替换。从引导程序样本计算出的值用“ *”表示。例如,对自举样本j计算的统计量提供值。 ˚FřÑÿŤŤ * ĴF^F[Rñÿ一世ŤŤĴ

经验/基本与百分数自举CI

经验/基本引导程序使用来自的引导程序样本中的分布来估计自身描述的总体中的分布。因此,其CI估计基于的分布,其中是原始样本中统计量的值。- [R ˚FŤ - θ ˚F Ť * - Ť-Ť[RF^Ť-θFŤ-ŤŤ

此方法基于自举的基本原理(参考文献3):

人口是样本,就像是自举样本。

相反,百分位数引导程序使用值本身的分位数来确定CI。如果的分布存在偏斜或偏差,则这些估计可能会大不相同。T - θ ŤĴŤ-θ

假设存在一个观察到的偏差,使得: ˉ Ť * = +

Ť¯=Ť+

其中是的平均值。的第5个百分数和第95个百分数表示为和,其中是自举样本的均值,均为正数,可能会有所不同,以允许偏斜。基于第5个CI百分位数的估计将分别直接通过以下方式给出:牛逼 * Ĵ牛逼 * ĴŤ¯ŤĴŤĴ ˉ Ť *+δ2 ˉ Ť *δ1δ2Ť¯-δ1个Ť¯+δ2Ť¯δ1个δ2

Ť¯-δ1个=Ť+-δ1个;Ť¯+δ2=Ť++δ2

第5和第95百分位数CI估计通过经验/基本自举的方法是分别(注释1,5.6当量,194页。):

2Ť-Ť¯+δ2=Ť--δ2;2Ť-Ť¯-δ1个=Ť-+δ1个

因此,基于百分位数的CI会错误地得出偏差,并且会在双偏置中心周围翻转置信范围的潜在不对称位置的方向。在这种情况下,自举产生的百分比CI不代表的分布。Ť-θ

此页面上很好地说明了此行为,以引导统计数据具有负偏倚,以致基于经验/基本方法(直接包括适当的偏倚校正),原始样本估计值低于95%CI。围绕双负偏心排列的基于百分位数方法的95%CI实际上都低于原始样本的负偏点估计值!

应该永远不要使用百分位引导程序吗?

根据您的观点,这可能是高估或轻描淡写。如果您可以记录最小的偏差和偏斜,例如通过使用直方图或密度图可视化的分布,则百分比引导程序应提供与经验/基本CI基本上相同的CI。这些可能都比对CI的简单正态近似更好。Ť-Ť

但是,这两种方法都无法提供其他自举方法可以提供的覆盖范围的准确性。埃夫隆从一开始就认识到百分位数CI的潜在局限性,但他说:“大多数情况下,我们会满意地让例子的不同程度的成功说明一切。” (参考资料2,第3页)

随后的工作,例如由DiCiccio和Efron总结(参考资料4),开发了“通过经验/基本或百分位方法提供的方法,可将标准区间的准确性提高一个数量级”。因此,如果您担心间隔的准确性,则可能会认为不应该使用经验/基本方法或百分位数方法。

在极端情况下,例如直接从对数正态分布进行采样而不进行转换,如弗兰克·哈雷尔Frank Harrell)所指出的,没有自举的CI估计值可能是可靠的。

是什么限制了这些和其他自举CI的可靠性?

几个问题可能会使自举的CI不可靠。有些适用于所有方法,有些则可以通过经验/基础或百分位方法以外的方法缓解。

首先,总的问题是经验分布代表人口分布。如果不是,则没有任何引导方法是可靠的。特别是,引导程序来确定接近于分布极值的任何东西都是不可靠的。在此站点的其他地方(例如,此处此处)讨论了此问题。对于任何特定样本,尾部中可用的几个离散值可能无法很好地表示连续的尾部。一种极端但说明性的情况是尝试使用自举法从统一的估计随机样本的最大阶数统计量 ˚F ˚F ˚FF^FF^Fü[0θ]分布,很好地解释这里。请注意,自举95%或99%CI本身位于分布的尾部,因此可能会遇到这样的问题,尤其是在样本量较小的情况下。

其次,不能保证从采样任何数量的样本都将与从采样相同的分布。但是,该假设是自举的基本原理。具有理想属性的数量称为关键数量。正如AdamO解释的那样 ˚FF^F

这意味着,如果基础参数发生变化,则分布的形状只会移动一个常数,并且刻度不一定会发生变化。这是一个很强的假设!

例如,如果有偏差的是要知道从抽样很重要各地是一样的,从取样周围。这是非参数采样中的一个特殊问题。作为参考 1将其放在第33页:θ ˚F ŧFθF^Ť

在非参数问题中,情况更加复杂。现在,不可能(但并非绝对不可能)任何数量都可以成为关键。

因此,通常最好的方法是近似。但是,通常可以适当地解决此问题。例如,可以根据Canty等人的建议使用枢轴图来估计采样量与枢轴的接近程度。这些可以显示自举估计分布如何随变化,或者变换提供关键量程度如何。用于改进自举CI的方法可以尝试找到一个变换,使得更接近于枢轴,以估计变换尺度上的CI,然后变换回原始尺度。tŤ-ŤŤħ Ť *- H ^ ħ ħ Ť *- H ^ HHŤ-HŤHHŤ-HŤ

boot.ci()功能提供了学生化的引导CI(由DiCiccio和Efron称为“ bootstrap- t ” )和 CI(经过校正和加速的偏斜,其中“加速度”处理了偏斜),具有“二阶准确度”,因为两者之间的差异期望的和达到的覆盖率(例如95%CI)约为,而经验/基本方法和百分位数方法只有一阶准确()(参考文献1,第212-3页;参考文献4)。但是,这些方法需要跟踪每个自举样本中的方差,而不仅仅是的各个值。 α ñ - 1 ñ - 0.5 Ť * ĴC一种αñ-1个ñ-0.5ŤĴ 被那些更简单的方法所使用。

在极端情况下,可能需要在自举样本本身中求助于自举,以对置信区间进行适当调整。参考文献第5.6节描述了这种“双重引导” 1,以及该书中的其他章节,提出了减少其极端计算需求的方法。


  1. Davison,AC和Hinkley,DV Bootstrap方法及其应用,剑桥大学出版社,1997年

  2. 埃夫隆(Efron),B。Bootstrap方法:再次看一下折刀(Ann。统计员。7:1-26,1979

  3. Fox,J.和Weisberg,S. R中的Bootstrapping回归模型。R附录“应用回归R”的第二版(Sage,2011年)。截至2017年10月10日修订

  4. DiCiccio,TJ和Efron,B。引导置信区间。统计 科学 11:189-228,1996

  5. Canty,AJ,Davison,AC,Hinkley,DV和Ventura,V.Bootstrap诊断和补救措施。能够。J.统计 34:5-27,2006


1
我真的不明白为什么你说“经验引导”对人口分布的偏差“不那么敏感”。百分位数引导程序和此“经验引导程序”是否使用引导分布中完全相同的分位数?我认为唯一的区别是,如果引导分布在样本均值周围不对称,则这两种方法的间隔将被翻转。如此处所述:en.wikipedia.org/wiki/…(“基本”与“百分位数”)。
变形虫说恢复莫妮卡

1
@amoeba,它们在处理引导程序估计中的偏差方面的方式有所不同,而不仅仅是在间隔上有所不同。这个答案需要更多的工作来将经验引导与百分位数引导问题与与分布尾部相关的问题区分开来,我在这里对此有些困惑,希望在几天之内弄清楚。
EdM

1
我不赞成这个答案,因为基于所提供的参考和提出的(非常合理的)基本原理:“ 永远不应该使用百分率引导程序 ”只是一种夸大其词,而不是“一点点”。是的,如果可以的话,我们应该使用某种形式的偏差校正自举法,但不,更好地使用百分位数自举来获得效率低下的CI估计,而不是无意地将2SE固定在均值周围并认为我们发现了美国。(我基本上同意答案的主体所说的,但不是最后一段,因为我觉得这很可能会引起误解。)
us11r128说Min Reinstate Monic 18'Jul

1
进行了实质性的重组和更正,部分是针对评论。
EdM

1
@Confounded您所写的内容等同于我为经验/基本引导程序提供的表格。请注意,您的是,其中 是引导程序样本中感兴趣的最高百分比。所以。我将用作您的并将为引导平均值加上偏移量。* θ * ü - θüθ^ü-θ^θ -Ù*= θ - θ * Ú - θ=2 θ - θ * ü θ θ * ü ˉ Ť *δ2θ^üθ^-ü=θ^-θ^ü-θ^=2θ^-θ^üŤθ^θ^üŤ¯δ2
EdM

8

关于MIT / Rice和Efron的书中不同术语的一些评论

我认为,就MIT讲义而言,EdM的回答在回答OP的原始问题方面做得非常出色。但是,OP还引用了Efrom(2016)的计算机时代统计推断一书,该书使用了稍有不同的定义,这可能导致混淆。


第11章-学生分数样本相关示例

本示例使用一个样本,其关注参数是相关性。在样本中,其观察值为。然后,Efron 为学生分数样本相关性执行非参数引导程序复制,并绘制结果的直方图(第186页)=2000 θ *θ^=0.498=2000θ^

在此处输入图片说明

标准间隔引导程序

然后,他定义了以下标准间隔引导程序

θ^±1.96sË^

对于95%的覆盖率,其中被视为引导程序标准错误:,也称为引导程序值的经验标准偏差。 sebootsË^sËbØØŤ

引导程序值的经验标准偏差:

令原始样本为而引导样本为。每个引导程序样本提供感兴趣的统计信息的引导程序复制X * = X * 1X * 2X * ÑbX=X1个X2XñX=X1个X2Xñb

θ^b=sXb  对于 b=1个2

对的标准误差的引导估计为θ^

θ * = Σ b = 1个θ * b

sË^bØØŤ=[b=1个θ^b-θ^2/-1个]1个/2
θ^=b=1个θ^b

此定义似乎与EdM答案中使用的定义不同:

经验/基本引导程序使用来自的引导程序样本中的 分布来估计自身描述的总体中的分布。- [R ˚FŤ - θ ˚FŤ-Ť[RF^Ť-θF


百分比引导

在这里,两个定义似乎是一致的。从Efron第186页:

百分方法使用自举分布的形状在所述标准时间间隔,以改善。生成了复制我们使用分布的百分比来定义百分比置信度限制。θ * 1θ * 2θ * θ^1个θ^2θ^

在此示例中,它们分别是0.118和0.758。

引用EdM:

百分引导,而不是使用的位数值本身来确定CI。ŤĴ


比较Efron定义的标准方法和百分位数方法

根据他自己的定义,Efron竭尽全力地提出,百分位数方法是一种改进。对于此示例,所得的CI为:

在此处输入图片说明


结论

我认为OP的原始问题与EdM提供的定义一致。OP为澄清定义所做的编辑与Efron的书一致,对于Empirical vs Standard bootstrap CI来说,并不完全相同。

欢迎评论


2
感谢您对术语的澄清。乍一看,“标准间隔自举”配置项似乎类似于由产生的“正常”配置项boot.ci(),因为它们基于对误差的正常近似,并且被迫关于的样本估计值对称。这与“经验/基本” CI不同,后者像“百分位数” CI一样允许不对称。我对“经验/基本”配置项和“百分比”配置项在处理偏见方面的巨大差异感到惊讶;在尝试回答这个问题之前,我没有考虑太多。θ
EdM

只需检查手册中的内容boot.ci():“正常间隔也使用自举偏差校正。” 因此,这似乎与Efron描述的“标准间隔引导程序”有所不同。
EdM

不够公平-在本书中描述的正常区间是从他建立的基本情况,以更好的和更精确的方法(一路BC和BCA),所以它是有道理的,它没有实现
泽维尔Bourret Sicotte

@EdM和Xavier:计算机时代统计推断是否完全描述了“经验/基本”配置项?如果是这样,书怎么称呼它们?如果不是,那不奇怪吗?
变形虫说恢复莫妮卡

1
@amoeba并不是我可以看穿的第一眼。这本书以pdf格式供个人使用。正如我在回答中所指出的那样,正如本书所指出的那样,在覆盖范围方面,存在比“经验/基本”和“百分位数”配置项更好的选择,因此我可以理解为什么可以省略:没有偏见和对称配置项,它们之间没有太大区别。我当然不能夸大Bootstrap的发明者强调他最初的CI方法的原因,因为它确实比“经验/基础”更直接导致BC和BCa。
EdM

5

我遵循您的指导方针:“寻找可靠和/或官方来源的答案。”

该引导程序是Brad Efron发明的。我认为可以说他是一位杰出的统计学家。他是斯坦福大学的教授,这是事实。我认为这使他的观点可信且正式。

我相信Efron和Hastie的《计算机时代统计推论》是他的最新著作,因此应该反映出他当前的观点。从第。204(11.7,注释和详细信息),

引导置信区间既不是精确的也不是最佳的,而是旨在具有广泛的适用性和接近精确的精度。

如果您阅读了第11章“引导程序置信区间”,他将提供4种创建引导程序置信区间的方法。这些方法中的第二种是(11.2)百分位数方法。第三和第四种方法是百分位数方法的变体,它们试图校正Efron和Hastie所描述的置信区间偏差,并对其进行理论解释。

顺便说一句,我无法确定MIT人们所说的经验引导CI和百分位数CI是否有任何区别。我可能正在放屁,但是我减去固定量后,将经验方法视为百分位方法。那应该什么都不会改变。我可能读错了,但如果有人能解释我对他们的文字有误解,我将不胜感激。

无论如何,领先机构似乎对百分位数CI没有问题。我还认为他的评论回答了有人提到的对引导CI的批评。

主要新增

[X¯-δ.1X¯-δ.9][X¯-δ.9X¯-δ.1]
δ=X¯-μX¯-μμ-X¯。一样合理。此外,第二组的增量是污损的百分位数bootstrap!。埃夫隆(Efron)使用百分位,我认为实际均值的分配应该是最基本的。我要补充一点,除了在另一个答案中提到的Efron和Hastie以及1979年的Efron论文外,Efron还在1982年写了一本有关引导程序的书。在所有3个来源中都提到了百分位数引导程序,但是我没有提到什么麻省理工学院的人称之为经验引导。另外,我很确定他们会错误地计算百分位引导程序。下面是我写的R笔记本。

关于MIT参考的评论首先,让我们将MIT数据放入R。我对他们的引导程序样本做了简单的剪切和粘贴工作,并将其保存到boot.txt。

隐藏orig.boot = c(30、37、36、43、42、43、43、46、41、42)boot = read.table(file =“ boot.txt”)的意思是as.numeric(lapply(boot ,mean))#lapply创建列表,而不是向量。我总是将其用于数据帧。mu =平均值(orig.boot)del = sort(平均值-mu)#差异mu表示del并进一步

隐藏mu-sort(del)[3] mu-sort(del)[18]这样我们就得到了相同的答案。特别是,我的百分位数和百分位数相同。我想指出的是,从第10个百分点到第90个百分点的范围是3。这与MIT相同。

我的意思是什么?

隐藏手段排序(手段)我得到不同的手段。重要点-我的第10位和第90位分别为38.9和41.9。这就是我所期望的。它们是不同的,因为我正在考虑与40.3的距离,所以我在颠倒减法顺序。请注意40.3-38.9 = 1.4(以及40.3-1.6 = 38.7)。因此,他们所说的百分位数引导程序给出的分布取决于我们获得的实际均值,而不取决于差异。

关键点经验引导程序和百分位数引导程序将有所不同,因为它们称为经验引导程序将是区间[x ∗ −δ.1,x ∗¯-δ.9] [x ∗ −δ.1, x ∗¯-δ.9],而百分位数自举的置信区间为[x ∗¯-δ.9,x ∗¯-δ.1] [x ∗¯-δ.9,x ∗¯-δ.1 ]。通常,它们应该没有什么不同。我有自己的想法,但我不是OP要求的权威人士。思想实验-如果样本数量增加,则两者应收敛。请注意,有210210个可能的大小为10的样本。不要胡说,但是如果我们要提取2000个样本(通常认为足够大)会怎么样。

隐藏set.seed(1234)#可再现的boot.2k =矩阵(NA,10,2000)for(i in c(1:2000)){boot.2k [,i] = sample(orig.boot,10,replace = T)} mu2k = sort(apply(boot.2k,2,mean))让我们看一下mu2k

隐藏摘要(mu2k)平均值(mu2k)-mu2k [200]平均值(mu2k)-mu2k [1801]和实际值-

Hide mu2k [200] mu2k [1801]因此,现在MIT称之为经验引导程序,其置信区间为[,40.3 -1.87,40.3 +1.64]或[38.43,41.94],其置信区间为80%,而其不良百分位数分布为[38.5, 42]。这当然是有道理的,因为在这种情况下,大量定律会说分布应该收敛到正态分布。顺便提一下,这在Efron和Hastie中进行了讨论。他们给出的用于计算引导时间间隔的第一种方法是使用mu = /-1.96 sd。正如他们指出的那样,对于足够大的样本量,这将起作用。然后,他们给出一个示例,其中n = 2000不足以使数据近似正态分布。

结论首先,我想陈述我用来决定命名问题的原则。“如果愿意,我可以在这哭泣。”最初由Petula Clark讲解的同时,我认为它也适用于命名结构。因此,出于对麻省理工学院的诚挚敬意,我认为布拉德利·埃夫隆(Bradley Efron)应该按自己的意愿命名各种引导方法。他做什么的 ?我在Efron中找不到“经验引导程序”,只是百分位数。因此,我将谦虚地不同意赖斯,麻省理工学院等。我还要指出,按照麻省理工学院讲座中使用的大数定律,经验值和百分位数应收敛到相同的数。在我看来,百分位数引导程序是直观,合理的,也是引导程序发明者所想到的。我要补充一点,我花时间只是为了我自己的目的,而不是其他。特别是,我没有写Efron,这可能是OP应该做的。我最愿意纠正。


3
“我认为他是一位杰出的统计学家是很公平的。” -是的,我想这很公平!
Xavier Bourret Sicotte

我认为OP称之为“经验提升”是Wikipedia在en.wikipedia.org/wiki/…上称之为“基本引导程序” 。没错,它使用与“百分率引导程序”相同的百分位,但是有点翻转它们。埃夫隆(Efron)和哈斯提(Hastie)是否将其纳入他们的4种方法中?他们怎么称呼它?
变形虫说恢复莫妮卡

我试图根据我在MIT笔记中阅读的内容在问题中澄清这一点。让我知道是否有任何不清楚的地方(或者如果您有时间自己检查笔记,请检查我的帖子的正确性)。
单簧管

@Xavier可以证明我的Efron陈述是轻描淡写。
aginensky '18

1
[X¯-δ.1X¯-δ.9]X¯
EdM

2

如先前的答复中所述,“经验引导程序”在其他来源(包括R函数boot.ci)中被称为“基本引导程序” ,它与在点估计时翻转的“百分比引导程序”相同。Venables和Ripley写道(“带有S的现代应用统计”,第四版,Springer,2002年,第136页):

在非对称问题中,基本区间和百分位区间会相差很大,并且基本区间似乎更合理。

ñ

FX=3X2 不对称分布平均值的不同引导间隔的覆盖概率±Ť1个-α/2s2/ñ±ž1个-α/2s2/ñ

λML估计器的不同引导间隔的覆盖概率±ž1个-α/2±ž1个-α/2

在这两种使用案例中,BCa引导程序在引导程序方法中具有最高的覆盖概率,并且百分位数引导程序的覆盖概率高于基本/经验引导程序。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.