有几种流行的重采样技术,通常在实践中使用,例如自举,置换测试,折刀等。有许多文章和书籍讨论了这些技术,例如Philip I Good(2010)置换,参数化和自举测试假设
我的问题是,哪种重采样技术已经越来越流行并且更易于实施?自举或置换测试?
有几种流行的重采样技术,通常在实践中使用,例如自举,置换测试,折刀等。有许多文章和书籍讨论了这些技术,例如Philip I Good(2010)置换,参数化和自举测试假设
我的问题是,哪种重采样技术已经越来越流行并且更易于实施?自举或置换测试?
Answers:
两者都是流行且有用的,但主要用于不同的用途。排列检验最适合用于检验假设,自举最适合于估计置信区间。
排列检验测试了可交换性的特定零假设,即只有随机采样/随机化才能解释所看到的差异。对于t检验和方差分析,这是常见的情况。它也可以扩展为诸如时间序列(无序列相关的零假设)或回归(无关系的零假设)之类的东西。置换检验可用于创建置信区间,但它需要更多或可能不合理的假设(因此,首选其他方法)。Mann-Whitney / Wilcoxon检验实际上是置换检验的一种特殊情况,因此它们比某些人更受欢迎。
引导程序会估计采样过程的可变性,并且可以很好地用于估计置信区间。您可以通过这种方式进行假设检验,但是对于排列检验假设成立的情况,它的功能往往不如排列检验。
如果您使用的是R,那么它们都很容易实现。参见例如http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
我要说的是第三种主要技术:交叉验证。这用于测试模型的预测能力。
我的问题是哪种重采样技术获得了越来越多的
自举测试或置换测试?
引导程序主要是关于产生较大的样本标准误差或置信区间。顾名思义,置换测试主要是关于测试。(尽管每个都可以调整以用于其他任务。)
我们如何判断人气?如果我们关注心理学和教育等领域,我们会发现大量使用基于排名的测验,例如Wilcoxon-Mann-Whitney,有符号的排名测验,排名相关测验等等。这些都是置换测试(另一方面,在许多情况下,可以代替使用原始数据的置换测试,但通常不这样做)。在其他一些应用程序区域中,很少使用排列测试,但是在各个应用程序区域中不同的流行度有时更多地说明了哪个区域的本地文化而不是有用性。
更容易实现?
在许多情况下-特别是较简单的情况-它们几乎完全一样容易-本质上是带替换采样与不带替换采样之间的区别。
在某些更复杂的情况下,引导程序更容易实现,因为(从测试的角度来看)引导程序是在替代方法而不是空方法下运行(至少是幼稚的实现方式),以便使其运行良好可能要复杂得多)。
在更复杂的情况下,很难进行精确的置换测试,因为可能无法观察到合适的可交换数量-经常会以准确性(且实际上是无分配的)为代价来替代几乎可交换的数量。
自举实际上从一开始就放弃了相应的精确度标准(间隔的确切覆盖范围),而是着重于尝试在大型样本中获得合理的良好覆盖范围(有时成功率可能不及所理解的);如果您未进行检查,请不要不要以为您的引导程序可以提供您期望的覆盖率)。
置换测试可以在小样本上进行(尽管对于很小的样本,有时有限的显着性水平选择可能会成为问题),而引导程序是大样本技术(如果将其用于小样本,则在许多情况下,结果可能不会非常有用)。
我很少将它们视为解决同一问题的竞争对手,并且曾将它们用于(不同的)实际问题上-经常会有一个自然的选择。
两者都有好处,但是在全民健养中都没有。如果您希望只关注其中之一来减少学习努力,那么您可能会感到失望-两者都是重采样工具箱中必不可少的部分。