非参数自举p值与置信区间


11

语境

这有点类似于此问题,但我认为这并非完全相同。

当您寻找有关如何执行自举假设检验的说明时,通常会指出,使用经验分布作为置信区间是可以的,但是您需要从原假设下的分布中正确地自举以获得p-值。例如,请参阅对此问题的公认答案。在互联网上进行的一般搜索似乎似乎可以找到类似的答案。

不使用基于经验分布的p值的原因是,大多数时候我们没有平移不变性。

让我举一个简短的例子。我们有一个硬币,我们想进行一个单面测试,看看正面的频率是否大于0.5

我们执行试验,得到个头。该测试的真实p值为。n=20k=14p=0.058

另一方面,如果我们从20个磁头中引导14个,则可以有效地从且的二项分布中进行采样。通过减去0.2来偏移此分布,当针对获得的经验分布测试观察值0.7时,我们将得到几乎没有显着结果。n=20p=1420=0.7

在这种情况下,差异很小,但是当我们测试的成功率接近1时,差异会更大。

现在让我提出我的问题的实质:对于置信区间,同样的缺陷也成立。实际上,如果置信区间具有规定的置信度水平则在无效假设下不包含参数的置信区间等效于在重要性水平为拒绝无效假设。α1α

为什么基于经验分布的置信区间被广泛接受而p值却未被接受?

是否存在更深层的原因,或者人们是否没有那么自信的保守度?

Peter Dalgaard 在这个答案中给出的答案似乎与我的观点一致。他说:

这种推理方式没有什么特别错误的,至少没有(比)CI的计算差很多。

(很多)从哪里来?这意味着以这种方式生成p值会稍差一些,但在这一点上没有详细说明。

最后的想法

同样在埃夫隆(Efron)和蒂布希尔尼(Tibshirani)的引言》中,它们为置信区间分配了很多空间,但没有为p值分配空间,除非它们是在适当的零假设分布下生成的,除了关于有关置换测试的章节中的置信区间和p值。

让我们也回到我链接的第一个问题。我同意迈克尔·切尔尼克(Michael Chernick)的回答,但他再次重申,在某些情况下,基于经验自举分布的置信区间和p值同样不可靠。它没有解释为什么您会发现很多人告诉您间隔是正确的,但p值却不正确。


我开始悬赏这个问题,因为我非常有兴趣了解如何以及何时可以使用引导CI接受/拒绝假设。也许您可以改写/重新格式化您的问题,以使其更简洁,更具吸引力?谢谢 !
Xavier Bourret Sicotte

我认为大多数人都会同意,当采用以下假设时,就可以使用CI进行假设检验了:检验统计量的对称分布,关键检验统计量,采用CLT,无或少有令人讨厌的参数等等。但是当统计量发生时会发生什么是奇怪的还是没有证明是关键的。这是我正在处理的一个真实示例:例如,比率统计的第75个百分位数之间的两个样本差异(两个和的比率)
Xavier Bourret Sicotte

简单的答案不只是很清楚如何在原假设下进行抽样,因此还有另一种方法显然更好吗?引导程序下的采样通常在经验分布下进行,因此是真正的数据生成机制,因此显然不应使用采样,而应仅在空值下采样。通过在真实数据生成机制下反转采样分布可以找到自举CI。确实,此CI可能无法很好地工作,但是就像Dalgaard所说的那样,如何解决它并不一定很明显。
jsk

我应该澄清,经验分布只是真实数据生成机制的近似值。它不能代表真相的程度将在未知方向上对引导的CI产生负面影响,从而导致覆盖率不到95%。
jsk

1
当检验是均值差异时,在零值下采样很明显,但是在许多情况下,如何重现零值并不明显...例如,零值是两个比率的第75个百分位数相同...如何我如何移动每个样本中比率的分子和分母来获得?另外,如何确定移动比率的分量实际上是在重现null?
Xavier Bourret Sicotte

Answers:


3

正如@MichaelChernick在回应他对一个链接问题的回答时所说的那样:

置信区间和假设检验之间通常存在1-1对应关系。例如,模型参数的95%置信区间表示有关该参数值的相应5%水平的假设检验的非拒绝区域。人口分布的形状没有要求。显然,如果通常将其应用于置信区间,它将应用于自举置信区间。

所以这个答案将解决两个相关的问题:(1)为什么引导的结果可能会演讲似乎更频繁地指定置信区间(CI),而不是p -值,如问题的建议,和(2)时,可能都p -值和由自举确定的CI被认为是不可靠的,因此需要另一种方法。

对于第一个问题,我不知道具体支持该问题主张的数据。也许在实践中,许多自举派生的点估计值都(或至少看起来)远离测试决策边界,以至于对相应零假设的p值几乎没有兴趣,而点估计值本身和一些合理的量度其可能的变异性。

关于第二个问题,许多实际应用涉及“测试统计量的对称分布,关键测试统计量,CLT的应用,没有或很少的讨厌参数等”(在上面@XavierBourretSicotte的评论中),对此几乎没有什么困难。然后,问题就变成了如何检测与这些条件的潜在偏差,以及如何在出现这些偏差时进行处理。

这些与理想行为的潜在偏差已被人们认可了数十年,并在早期开发了多种自举CI方法来解决这些问题。Studentized引导程序有助于提供关键的统计数据,而BCa方法可以从引导程序中获得更可靠的CI,从而可以处理偏差和偏度。在确定自举CI之前对数据进行方差稳定化的转换,然后将其反向转换为原始规模也有帮助。

这个问题中的示例是使用BCa方法的CI很好地处理了从一枚公平硬币的20次掷出的14个头中取样的情况。在R中:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

其他CI估计值提出了一个非常接近或处于每20丢10头的人口值边缘的问题。BCa CI解释了偏度(由二项式抽样法以偶数除法引入),因此它们很好地包含了10的总体值。

但是,在利用这些解决方案之前,您必须寻找与理想行为的偏离。就像在许多统计实践中一样,实际查看数据而不只是插入算法可能是关键。例如,有关CI的自举结果偏差的问题显示了上面代码中显示的前3个CI的结果,但排除了BCa CI。当我尝试重现该问题中显示的分析以包括BCa CI时,我得到了结果:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

其中“ w”涉及偏差校正。所检查的统计信息具有固定的最大值,并且自举的插件估计也存在固有偏差。得到这样的结果应该表明违反了自举CI的通常假设。

分析关键量可避免此类问题。即使经验分布不能具有有用的严格的关键统计数据,但尽可能合理地接近是一个重要目标。该答案的最后几段提供了更多帮助的链接,例如枢轴图,可通过引导程序来估计某个统计信息(可能在某些数据转换后)是否接近于枢轴,以及计算量大但可能具有决定性的双重引导程序。


谢谢edm!如果CI与假设检验之间存在1-1的对应关系,那么为什么引导检验通常会涉及移动数据集以重现null?通过这样做,我们得到的结果是否不同于计算差异分布的CI所得到的结果?
Xavier Bourret Sicotte,

@XavierBourretSicotte我认为“引导测试通常涉及移动数据集以重现null”,这是不正确的。每个引导程序样本都是尝试复制原始的采样/实验,并使用手头的样本表示基础种群。但是,如果所讨论的统计数据不是至关重要的,那么在自举样本上开发的CI不会代表在基础总体上开发的CI。因此,您需要使用BCa或其他方法将统计信息分布朝空值的方向更正。
EdM
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.