使用置换测试的好处是什么?


10

当通过检验统计量检验某些零假设与替代假设时,其中,对进行置换,对置换集进行置换检验,我们有了一个新的统计量 U(X)X={xi,...,xn}GX

T(X):=#{πG:U(πX)U(X)}|G|.
  1. 与不使用置换测试相比,使用置换测试有什么好处?即,排列测试工作时是什么样的?

  2. 什么条件可以实现?例如关于检验统计量和/或原假设的某些条件?U

例如,

  1. 是否应 是等于基于p值,用于样品?如果是,为什么?(也值得参考)T(X)U(X)X

    的p值定义为。如果置换检验是为了估计U(X)的置换分布| X = xT(X)等于X = xU(X)的p值吗?特别是,在零H中可能存在多个分布,并且T(X)不会一一考虑零分布,然后取\ sup_ {F \ in H}\ inf_ {c:U(x) \ geq c}U(X)

    infcR:U(x)csupFHP(U(X)c|XF)
    U(X)|X=xT(X)U(X)X=xHT(X)supFHinfc:U(x)c
  2. 置换检验是否应该使原假设的T(X)分布不存在?什么条件将使这种情况发生?

  3. T(X)是否应该T(X)均匀地分布在[0,1]?什么条件将使这种情况发生?请注意,当U()是常数函数时,T()也是常数为1并且T [X]的分布 T(X)远不均匀于[0,1]

谢谢并恭祝安康!


@Glen_b:谢谢!是否应 是等于基于p值,对于任何样品?如果我理解正确,我在本幻灯片的第5页上找到了。因此,使用置换检验的好处是可以计算原始检验统计量的p值,而无需知道在零值下的分布?因此,的分布不一定一定是均匀的吗?T(X)U(X)XUXT(X)
蒂姆(Tim)

是否“T是p值(情况下大U表示从零偏差和小U是与它相一致)”,意味着对于检验统计的p值和样品是?UXT(X)
蒂姆(Tim)

为什么?有什么参考说明吗?
蒂姆(Tim)

Answers:


18

由于讨论持续了很长时间,因此我已将自己的回答作为答案。但是我改变了顺序。

排列检验是“精确的”,而不是渐近的(例如,与似然比检验比较)。因此,例如,即使无法计算空值下均值差的分布,您也可以进行均值测试;您甚至不需要指定所涉及的分布。您可以设计一个在一组假设下具有良好功效的测试统计量,而又不像完全参数假设对它们那么敏感(可以使用健壮但具有良好ARE的统计量)。

请注意,您给出的定义(或者,无论您引用的是谁给出的)都不通用。有人将U称为置换检验统计量(进行置换检验的不是统计量,而是评估p值的方式)。但是,一旦您进行了排列检验,并指定了一个方向,因为“其极值与H0不一致”,则上述T的定义基本上就是您计算p值的方式-只是实际值的排列分布至少与null下的样本(p值的定义)一样极端。

因此,举例来说,如果我想对两次抽样t检验之类的方法进行一次(单尾检验)检验,则可以使我的统计量成为t统计量的分子,或者t统计量本身,或第一个样本的总和(这些定义中的每个定义都是单调的,取决于组合的样本),或者它们的任何单调变换,并且具有相同的检验,因为它们产生相同的p值。我需要做的就是查看我选择的样本统计量所在的任何统计量的排列分布(按比例)有多远。上面定义的T只是另一个统计数据,与我可以选择的其他任何统计数据一样好(T定义为U中单调)。

T不会是完全均匀的,因为这将需要连续的分布,并且T必须是离散的。由于U和T可以将多个排列映射到给定的统计量,因此结果不是等概率的,但是它们具有“均匀的” cdf **,而步长不一定相等。

**(,并且在每次跳转的正确极限处严格等于它-可能有一个实际的名称)F(x)x

对于合理的统计,随着趋于无穷大,的分布趋于均匀。我认为,开始了解它们的最佳方法实际上是在各种情况下进行操作。 nT

对于任何样本X,T(X)是否应等于基于U(X)的p值?如果我理解正确,我在本幻灯片的第5页上找到了它。

T是p值(对于大U表示偏离零值而小U与其一致的情况)。注意,分布取决于样品。因此,它的分布不是“针对任何样本”。

因此,使用置换检验的好处是计算原始检验统计量U的p值,而无需知道零值下X的分布?因此,T(X)的分布不一定一定是均匀的吗?

我已经解释过T不是统一的。

我想我已经解释了排列测试的好处。其他人会建议其他优点(例如)。

“ T是p值(对于大U表示偏离零值而小U与其一致的情况)”,是否意味着检验统计量U和样本X的p值为T(X)?为什么?有什么参考说明吗?

您引述的句子明确指出T是p值,并且是p值。如果您可以解释不清楚的地方,也许我可以说更多。至于为什么,请参阅p值的定义(链接上的第一句话)-它的确很直接

还有的排列检验一个良好的初步探讨在这里

-

编辑:我在这里添加一个小的排列测试示例;该(R)代码仅适用于小样本-您需要更好的算法来查找中等样本中的极端组合。

考虑针对单尾选择的置换测试:

H0:μx=μy (有些人坚持使用 *)μxμy
H1:μx<μy

*但我通常会避免使用它,因为在尝试计算零分布时,它尤其容易使学生感到困惑

根据以下数据:

> x;y
[1] 25.17 20.57 19.03
[1] 25.88 25.20 23.75 26.99

有35种方式将7个观测值分为大小为3和4的样本:

> choose(7,3)
[1] 35

如前所述,给定7个数据值,第一个样本的总和在均值上是单调的,因此我们将其用作检验统计量。因此原始样本的测试统计量为:

> sum(x)
[1] 64.77

现在是排列分布:

> sort(apply(combn(c(x,y),3),2,sum))
 [1] 63.35 64.77 64.80 65.48 66.59 67.95 67.98 68.66 69.40 69.49 69.52 69.77
[13] 70.08 70.11 70.20 70.94 71.19 71.22 71.31 71.62 71.65 71.90 72.73 72.76
[25] 73.44 74.12 74.80 74.83 75.91 75.94 76.25 76.62 77.36 78.04 78.07

(对它们进行排序不是必需的,我只是这样做了,以便更容易地看到测试统计信息是末尾的第二个值。)

我们可以看到(在这种情况下,通过检查)是2/35,或者p

> 2/35
[1] 0.05714286

(请注意,只有在没有xy重叠的情况下,此处的p值才可能低于.05。在这种情况下,将是离散均匀的,因为中没有束缚值。)TU

排列分布

粉色箭头表示x轴上的样本统计量,以及y轴上的p值。


谢谢!所以基本上,置换检验被用来估计的分布下的零分布,不是吗?因此,取决于零分布,但p值FP的速率在所有空分布的INF和是p值和?U(X)XT(X)XXT(X)UX
2013年

它估计的置换分布。事实是,您将所有排列均等地对待,从而使其“在null之下”(因为在null下,排列也应同样可能)。U(X)|X=x
Glen_b-恢复莫妮卡

(1))的p值定义为。如果置换检验是为了估计的置换分布,等于处的p值吗?特别是,在零可能存在多个分布,并且不会一一考虑零分布,然后取和。(2)对于所有零分布,)是否具有相同的分布,即零分布与零无关吗?U(X)
infcR:U(x)csupFHP(U(X)c|XF)
U(X)|X=xT(X)U(X)X=xHT(X)supFHinfc:U(x)cT(X)
蒂姆(Tim)

添加到(1)中,置换测试不仅适用于简单的null,而且适用于复合null,不是吗?
2013年

(1)定义在哪里?这似乎是一个奇怪的定义。为什么要指定X的分布?您以条件。您的困惑似乎源于这个相当奇怪的定义。(2)对我完全没有意义。X=x
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.