自举重要性测试的两种方法


11

使用引导程序,我使用两种方法计算重要性测试的p值:

  1. 在原假设下重新采样并计算结果至少与原始数据得出的结果一样极端
  2. 在替代假设下进行重采样,并计算结果与原始结果的距离至少与与原假设对应的值一样远

我相信一种方法完全正确,因为它遵循ap值的定义。我对第二个不太确定,但是它通常会给出非常相似的结果,并让我想起Wald测试。

我对吗?两种方法都正确吗?它们是否相同(对于大样本)?


两种方法的示例(在DWin的问题和Erik的回答后进行编辑):
示例1.让我们构造一个类似于两个样本T检验的自举测试。方法1将从一个样本中重新采样(通过合并原始两个样本获得)。方法2将分别从两个样本中重新采样。

示例2.让我们构造一个x₁…xₐ和y₁…yₐ之间的相关性的自举测试。方法1将假定没有相关性,并重新采样允许(xₑ,yₔ)对,其中e≠ə。方法2将编译原始(x,y)对的引导程序样本。

示例3.让我们构造一个引导测试来检查硬币是否公平。方法1将创建随机样本,设置Pr(head)= Pr(tail)= 1/2。方法2将重新采样实验头/尾值的样本,并将比例与½进行比较。


哪个“替代假设”?在传统的渔业术语中,不仅会有一种选择,而且还有无数种选择。那么,您如何“假装抽样”呢?对数据进行采样。假设是关于参数的。
DWin

@DWin:谢谢,请参阅我的示例添加到我的问题中。
winerd

Answers:


8

第一种方法是经典且值得信赖的,但不能总是使用。要获得假设为零假设的引导样本,您必须要么愿意持有一个理论分布(这是您的第一个选择),要么要当您关注的统计量转移到零假设时具有相同的分布形状(您的第二个选择))。例如,在通常的假设下,当t分布转移到另一个均值时,其分布具有相同的形状。但是,当将二项式分布的零频率0.5更改为0.025时,也会改变形状。

以我的经验,否则,如果您愿意做出这些假设,则通常还会有其他选择。在您的示例1)中,您似乎假设两个样本都可能来自相同的基本种群,我认为排列检验会更好。

还有另一个选项(您似乎是第二选择),它基于引导置信区间。基本上,这假设如果您声明的覆盖范围将有意义程度保持为它等于置信区间中未包含的原假设。例如,请参见以下问题:置信区间和假设检验之间有什么区别?α(1α)

这是一种非常灵活的方法,适用于许多测试。但是,构建良好的自举置信区间至关重要,而不是简单地使用Wald逼近法或百分位数法。一些信息在这里:基于引导的置信区间


1
好答案。那么第二种选择要求对称性是否正确?假设您的置信区间的平均值大于0,并且您考虑的H并非等于0。那么,查看置信区间中的0不同于假设H不等于,查看平均值的极端程度是不同的(如果您假设要移动的是置信区间,则这两个方向是不同的。
michal

@erik刚刚开始悬赏类似的问题-基本上是上述评论的大风版本-什么时候可以使用选项2以及在什么条件下使用?stats.stackexchange.com/questions/175659/...
泽维尔Bourret Sicotte
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.