由于讨论持续了很长时间,因此我已将自己的回答作为答案。但是我改变了顺序。
排列检验是“精确的”,而不是渐近的(例如,与似然比检验比较)。因此,例如,即使无法计算空值下均值差的分布,您也可以进行均值测试;您甚至不需要指定所涉及的分布。您可以设计一个在一组假设下具有良好功效的测试统计量,而又不像完全参数假设对它们那么敏感(可以使用健壮但具有良好ARE的统计量)。
请注意,您给出的定义(或者,无论您引用的是谁给出的)都不通用。有人将U称为置换检验统计量(进行置换检验的不是统计量,而是评估p值的方式)。但是,一旦您进行了排列检验,并指定了一个方向,因为“其极值与H0不一致”,则上述T的定义基本上就是您计算p值的方式-只是实际值的排列分布至少与null下的样本(p值的定义)一样极端。
因此,举例来说,如果我想对两次抽样t检验之类的方法进行一次(单尾检验)检验,则可以使我的统计量成为t统计量的分子,或者t统计量本身,或第一个样本的总和(这些定义中的每个定义都是单调的,取决于组合的样本),或者它们的任何单调变换,并且具有相同的检验,因为它们产生相同的p值。我需要做的就是查看我选择的样本统计量所在的任何统计量的排列分布(按比例)有多远。上面定义的T只是另一个统计数据,与我可以选择的其他任何统计数据一样好(T定义为U中单调)。
T不会是完全均匀的,因为这将需要连续的分布,并且T必须是离散的。由于U和T可以将多个排列映射到给定的统计量,因此结果不是等概率的,但是它们具有“均匀的” cdf **,而步长不一定相等。
**(,并且在每次跳转的正确极限处严格等于它-可能有一个实际的名称)F(x)≤x
对于合理的统计,随着趋于无穷大,的分布趋于均匀。我认为,开始了解它们的最佳方法实际上是在各种情况下进行操作。 nT
对于任何样本X,T(X)是否应等于基于U(X)的p值?如果我理解正确,我在本幻灯片的第5页上找到了它。
T是p值(对于大U表示偏离零值而小U与其一致的情况)。注意,分布取决于样品。因此,它的分布不是“针对任何样本”。
因此,使用置换检验的好处是计算原始检验统计量U的p值,而无需知道零值下X的分布?因此,T(X)的分布不一定一定是均匀的吗?
我已经解释过T不是统一的。
我想我已经解释了排列测试的好处。其他人会建议其他优点(例如)。
“ T是p值(对于大U表示偏离零值而小U与其一致的情况)”,是否意味着检验统计量U和样本X的p值为T(X)?为什么?有什么参考说明吗?
您引述的句子明确指出T是p值,并且是p值。如果您可以解释不清楚的地方,也许我可以说更多。至于为什么,请参阅p值的定义(链接上的第一句话)-它的确很直接
还有的排列检验一个良好的初步探讨在这里。
-
编辑:我在这里添加一个小的排列测试示例;该(R)代码仅适用于小样本-您需要更好的算法来查找中等样本中的极端组合。
考虑针对单尾选择的置换测试:
H0:μx=μy (有些人坚持使用 *)μx≥μy
H1:μx<μy
*但我通常会避免使用它,因为在尝试计算零分布时,它尤其容易使学生感到困惑
根据以下数据:
> x;y
[1] 25.17 20.57 19.03
[1] 25.88 25.20 23.75 26.99
有35种方式将7个观测值分为大小为3和4的样本:
> choose(7,3)
[1] 35
如前所述,给定7个数据值,第一个样本的总和在均值上是单调的,因此我们将其用作检验统计量。因此原始样本的测试统计量为:
> sum(x)
[1] 64.77
现在是排列分布:
> sort(apply(combn(c(x,y),3),2,sum))
[1] 63.35 64.77 64.80 65.48 66.59 67.95 67.98 68.66 69.40 69.49 69.52 69.77
[13] 70.08 70.11 70.20 70.94 71.19 71.22 71.31 71.62 71.65 71.90 72.73 72.76
[25] 73.44 74.12 74.80 74.83 75.91 75.94 76.25 76.62 77.36 78.04 78.07
(对它们进行排序不是必需的,我只是这样做了,以便更容易地看到测试统计信息是末尾的第二个值。)
我们可以看到(在这种情况下,通过检查)是2/35,或者p
> 2/35
[1] 0.05714286
(请注意,只有在没有xy重叠的情况下,此处的p值才可能低于.05。在这种情况下,将是离散均匀的,因为中没有束缚值。)TU
粉色箭头表示x轴上的样本统计量,以及y轴上的p值。