置换检验的置信区间和P值不确定性

我正在学习随机测试。我想到两个问题：

是的，通过随机化测试（我认为与置换测试相同）来计算p值很容易而且很直观。但是，如何像普通参数测试一样生成95％的置信区间？
当我阅读华盛顿大学有关置换测试的文档时，第13页上有一句话说：

对于1000个排列....，p = 0.05附近的不确定度约为。 $\pm 1\%$

我不知道我们如何得到这种不确定性。

confidence-interval p-value permutation-test

— 山姆
source

但是，如何像普通参数测试一样生成95％的置信区间？

这是从重采样测试生成间隔的一种方法，尽管并不总是将其视为置信区间。对于特定示例，请测试均值的两个样本差异。考虑将第二个样本移位（可以为正或负）。然后，可以导致水平的测试未拒绝的值集可以用作平均值差异的名义上的置信区间。 $^\dagger$ $\delta$ $\delta$ $\alpha$ $1-\alpha$

$\dagger$ 一些作者（例如[1]，p364 等，[2]）将以这种方式构造的间隔（测试未拒绝的参数值）称为辅音间隔 -比它的置信区间更好的名称（尽管许多人只是忽略了差异；例如，我相信Cox＆Hinkley称这些置信区间为因为该方法不一定给出具有所需覆盖率的区间（在许多情况下有可能看到它应该如此）；该名称传达了有关间隔确实告诉您的信息（与数据一致的值的间隔）。

盖尔曼（German）讨论了为什么在这里普遍考虑他们的置信区间有时会有问题。

不过，在特定的假设条件下（通过模拟）探索覆盖范围并不难，而且不乏人们将自举间隔称为“置信间隔”（即使有时它们看起来并不像所声称的覆盖范围一样）。

[3]中讨论了在两个样本均值差异情况下如何执行此操作的更多详细信息，其中将它们称为随机置信区间，并在它们确切时提出声明（该声明为我尚未提出）。 t试图评估）。

对于1000个排列..，p = 0.05附近的不确定度约为±1％。

我想知道我们如何得到这种不确定性？

估计的p值是直接的二项式比例。因此，它具有与任何其他二项式比例相同的标准误差。 $\sqrt{\frac{p(1-p)}{n}}$

因此，如果且，则观察到的比例的标准误差约为。甲 CI。将 [或者，为约标准误差每一侧，这将对应于一个比特的底层p值的置信区间超过 ] $p = 0.05$ $n=1000$ $0.0069$ $90\%$ $\pm 1.13\%$ $\pm 1\%$ $1.45$ $85\%$

因此，至少可以粗略地说，不确定性为“大约1％”

[1] Kempthorne and Folks（1971），《
概率，统计和数据分析》，
爱荷华州立大学出版社

[2] LaMotte LR和VolaufováJ，（1999年），
“通过谐音间隔的预测间隔”，
皇家统计学会杂志。系列D（统计学家），第1卷。48，第3号，第419-424页

[3]恩斯特（Ernst），医学博士（2004），
“置换方法：精确推论的基础”，《 统计科学》，第1卷。19，第4号，676-685

— Glen_b-恢复莫妮卡
source