Bootstrap vs.排列假设检验


37

有几种流行的重采样技术,通常在实践中使用,例如自举,置换测试,折刀等。有许多文章和书籍讨论了这些技术,例如Philip I Good(2010)置换,参数化和自举测试假设

我的问题是,哪种重采样技术已经越来越流行并且更易于实施?自举或置换测试?


8
人气并不是衡量质量的好方法。从被引用的数量(客户)来看,麦当劳是一家比米其林三星级酒店都受欢迎(更好?)的餐厅。那么,您将带您下一个研讨会演讲者到麦当劳吗?
StasK

Answers:


68

两者都是流行且有用的,但主要用于不同的用途。排列检验最适合用于检验假设,自举最适合于估计置信区间。

排列检验测试了可交换性的特定零假设,即只有随机采样/随机化才能解释所看到的差异。对于t检验和方差分析,这是常见的情况。它也可以扩展为诸如时间序列(无序列相关的零假设)或回归(无关系的零假设)之类的东西。置换检验可用于创建置信区间,但它需要更多或可能不合理的假设(因此,首选其他方法)。Mann-Whitney / Wilcoxon检验实际上是置换检验的一种特殊情况,因此它们比某些人更受欢迎。

引导程序会估计采样过程的可变性,并且可以很好地用于估计置信区间。您可以通过这种方式进行假设检验,但是对于排列检验假设成立的情况,它的功能往往不如排列检验。


2
感谢您的回答。引导置信区间为什么没有排列检验那么有效?多少钱 有人可以描述其功能明显不足的情况吗?能够显示置信区间似乎是一个优势,因此从这个意义上讲,引导看起来更有价值。
dfrankow 2014年

2
@dfrankow,这两种方法使用不同的假设。对于较大的样本和差异,它们都很好,但是对于较小的样本/差异,置换测试更可能找到差异并且适当。请参阅此答案:stats.stackexchange.com/questions/112147/…以获取引导大小甚至都不正确的示例(当null为true时经常拒绝)。
格雷格·斯诺

置换测试不是自举的一种变体吗?
Vicki B

@ VickiB,Bootstrapping和Permutation测试经常一起提到,但是带有替换的置换样本和没有替换的置换样本会在功能和功能上有所不同。
格雷格·雪


8

我的问题是哪种重采样技术获得了越来越多的
自举测试或置换测试?

  1. 引导程序主要是关于产生较大的样本标准误差或置信区间。顾名思义,置换测试主要是关于测试。(尽管每个都可以调整以用于其他任务。)

  2. 我们如何判断人气?如果我们关注心理学和教育等领域,我们会发现大量使用基于排名的测验,例如Wilcoxon-Mann-Whitney,有符号的排名测验,排名相关测验等等。这些都是置换测试(另一方面,在许多情况下,可以代替使用原始数据的置换测试,但通常不这样做)。在其他一些应用程序区域中,很少使用排列测试,但是在各个应用程序区域中不同的流行度有时更多地说明了哪个区域的本地文化而不是有用性。

更容易实现?

在许多情况下-特别是较简单的情况-它们几乎完全一样容易-本质上是带替换采样与不带替换采样之间的区别。

在某些更复杂的情况下,引导程序更容易实现,因为(从测试的角度来看)引导程序是在替代方法而不是空方法下运行(至少是幼稚的实现方式),以便使其运行良好可能要复杂得多)。

在更复杂的情况下,很难进行精确的置换测试,因为可能无法观察到合适的可交换数量-经常会以准确性(且实际上是无分配的)为代价来替代几乎可交换的数量。

自举实际上从一开始就放弃了相应的精确度标准(间隔的确切覆盖范围),而是着重于尝试在大型样本中获得合理的良好覆盖范围(有时成功率可能不及所理解的);如果您未进行检查,请不要不要以为您的引导程序可以提供您期望的覆盖率)。

置换测试可以在小样本上进行(尽管对于很小的样本,有时有限的显着性水平选择可能会成为问题),而引导程序是大样本技术(如果将其用于小样本,则在许多情况下,结果可能不会非常有用)。

我很少将它们视为解决同一问题的竞争对手,并且曾将它们用于(不同的)实际问题上-经常会有一个自然的选择。

两者都有好处,但是在全民健养中都没有。如果您希望只关注其中之一来减少学习努力,那么您可能会感到失望-两者都是重采样工具箱中必不可少的部分。


1
您能否说明“ 合适的交换量可能无法观察到 ”是什么意思?(+1显然)
usεr11852说恢复单胞菌

1
考虑在具有两个因子和一个协变量的实验中尝试进行置换测试(或仅考虑具有多个预测变量的回归)。具有独立性并且在没有任何影响的情况下,观察值是可以互换的,因此您可以检验该假设,但您无法构建仅对因素进行置换检验的方法(因为您期望协变量会产生影响)并且测试它是否为null并不有趣);同样,您不能仅对两个因素之一进行排列检验。... ctd
Glen_b

1
ctd ...如果您知道不测试的总体系数(并且误差始终可以互换),则有一个明显的可交换数量,但是您无法观察到这些情况。如果用系数或误差(即残差)的估计值替代,则可以更长时间交换数量。但是,在某些特定条件下,它们将是可互换的(有人主张这样做)..如果这样做,您最终会得到类似于自举的东西,但采样时没有替换,而不是采样时替换了。
Glen_b

谢谢; 我会仔细考虑的。我怀疑这里有更深的我需要学习的东西。:)
usεr11852说恢复单胞菌

1
由于某种原因,@ NULL我错过了您的参考要求。对于一个起点,这里的一些参考的应该做的:davegiles.blogspot.com/2019/04/...
Glen_b
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.