使用引导程序,我使用两种方法计算重要性测试的p值:
- 在原假设下重新采样并计算结果至少与原始数据得出的结果一样极端
- 在替代假设下进行重采样,并计算结果与原始结果的距离至少与与原假设对应的值一样远
我相信第一种方法完全正确,因为它遵循ap值的定义。我对第二个不太确定,但是它通常会给出非常相似的结果,并让我想起Wald测试。
我对吗?两种方法都正确吗?它们是否相同(对于大样本)?
两种方法的示例(在DWin的问题和Erik的回答后进行编辑):
示例1.让我们构造一个类似于两个样本T检验的自举测试。方法1将从一个样本中重新采样(通过合并原始两个样本获得)。方法2将分别从两个样本中重新采样。示例2.让我们构造一个x₁…xₐ和y₁…yₐ之间的相关性的自举测试。方法1将假定没有相关性,并重新采样允许(xₑ,yₔ)对,其中e≠ə。方法2将编译原始(x,y)对的引导程序样本。
示例3.让我们构造一个引导测试来检查硬币是否公平。方法1将创建随机样本,设置Pr(head)= Pr(tail)= 1/2。方法2将重新采样实验头/尾值的样本,并将比例与½进行比较。
哪个“替代假设”?在传统的渔业术语中,不仅会有一种选择,而且还有无数种选择。那么,您如何“假装抽样”呢?对数据进行采样。假设是关于参数的。
—
DWin
@DWin:谢谢,请参阅我的示例添加到我的问题中。
—
winerd