语境
这有点类似于此问题,但我认为这并非完全相同。
当您寻找有关如何执行自举假设检验的说明时,通常会指出,使用经验分布作为置信区间是可以的,但是您需要从原假设下的分布中正确地自举以获得p-值。例如,请参阅对此问题的公认答案。在互联网上进行的一般搜索似乎似乎可以找到类似的答案。
不使用基于经验分布的p值的原因是,大多数时候我们没有平移不变性。
例
让我举一个简短的例子。我们有一个硬币,我们想进行一个单面测试,看看正面的频率是否大于0.5
我们执行试验,得到个头。该测试的真实p值为。
另一方面,如果我们从20个磁头中引导14个,则可以有效地从且的二项分布中进行采样。通过减去0.2来偏移此分布,当针对获得的经验分布测试观察值0.7时,我们将得到几乎没有显着结果。
在这种情况下,差异很小,但是当我们测试的成功率接近1时,差异会更大。
题
现在让我提出我的问题的实质:对于置信区间,同样的缺陷也成立。实际上,如果置信区间具有规定的置信度水平则在无效假设下不包含参数的置信区间等效于在重要性水平为拒绝无效假设。
为什么基于经验分布的置信区间被广泛接受而p值却未被接受?
是否存在更深层的原因,或者人们是否没有那么自信的保守度?
Peter Dalgaard 在这个答案中给出的答案似乎与我的观点一致。他说:
这种推理方式没有什么特别错误的,至少没有(比)CI的计算差很多。
(很多)从哪里来?这意味着以这种方式生成p值会稍差一些,但在这一点上没有详细说明。
最后的想法
同样在《埃夫隆(Efron)和蒂布希尔尼(Tibshirani)的引言》中,它们为置信区间分配了很多空间,但没有为p值分配空间,除非它们是在适当的零假设分布下生成的,除了关于有关置换测试的章节中的置信区间和p值。
让我们也回到我链接的第一个问题。我同意迈克尔·切尔尼克(Michael Chernick)的回答,但他再次重申,在某些情况下,基于经验自举分布的置信区间和p值同样不可靠。它没有解释为什么您会发现很多人告诉您间隔是正确的,但p值却不正确。