Fisher精确检验中的检验统计量是多少?


9

对于2 x 2列联表,某些Fisher精确测试使用表(1,1)单元格中的计数作为测试统计量,在零假设下,将具有超几何分布。X1个1个X1个1个

有人说它的测试统计量是 其中是null下超几何分布的平均值(如上所述)。它还说,p值是根据高计量分布的表格确定的。我想知道是否有一些原因减去均值然后取绝对值?在null下没有超几何分布,是吗?

|X1个1个-μ|
μ|X1个1个-μ|

Answers:


10

(为使我们的概念更精确一点,我们称其为“检验统计量”,即我们查找以实际计算p值的事物的分布。这意味着对于两尾t检验,检验统计量应为 |Ť| 而不是 Ť

测试统计量的作用是在样本空间上诱导排序(或更严格地说,是部分排序),以便您可以识别极端情况(与备选方案最一致的情况)。

对于Fisher的精确测试,某种意义上已经存在排序-这是各种2x2表本身的概率。碰巧的是,它们对应于X1个1个 在某种意义上说, X1个1个是“极端”的,也是概率最小的。因此,与其看待X1个1个 按照您建议的方式,您可以简单地从大大小小的一端进行工作,在每一步中,只需添加任何值即可(最大或最小) X1个1个-尚未存在的值)具有最小的关联概率,一直持续到到达观察表为止;如果将其包括在内,则所有这些极端表的总概率为p值。

这是一个例子:

超几何概率函数

> data.frame(x=x,prob=dhyper(x,9,12,10),rank=rank(dhyper(x,9,12,10)))
   x         prob rank
1  0 1.871194e-04    2
2  1 5.613581e-03    4
3  2 5.052223e-02    6
4  3 1.886163e-01    8
5  4 3.300786e-01   10
6  5 2.829245e-01    9
7  6 1.178852e-01    7
8  7 2.245433e-02    5
9  8 1.684074e-03    3
10 9 3.402171e-05    1

第一列是 X1个1个 值,第二列是概率,第三列是归纳排序。

因此,在Fisher精确检验的特定情况下,每个表格(等效于每个表格)的概率X1个1个值)可以视为实际测试统计信息

如果您比较建议的测试统计信息 |X1个1个-μ|,在这种情况下,它会诱导相同的排序(我相信通常会这样做,但我没有检查),因为该统计量的较大值是概率的较小值,因此也可以视为“统计量” -但是其他许多数量也是如此-实际上,任何数量都可以保持这种顺序X1个1个在所有情况下,s都是等效的测试统计信息,因为它们始终产生相同的p值。

还要注意,在开始时引入了更精确的“测试统计量”概念,因此该问题的所有可能的测试统计量实际上都没有超几何分布。 X1个1个可以,但是实际上对于两尾测试来说,这不是一个合适的测试统计量(如果我们进行了单面测试,其中仅将主要对角线上的更多关联而不是第二对角线上的关联视为与替代一致,则可能是测试统计信息)。这与我刚开始时的一尾/二尾问题相同。

[编辑:某些程序确实提供了Fisher检验的检验统计信息;我认为这将是-2logL类型的计算,与卡方渐近可比。有些人可能还会提供赔率比或它的对数,但这并不完全相等。]


谢谢,Glen_b!的分布X1个1个 在null下是超几何分布,其均值不对称 μ。所以我想知道是否|X1个1个-μ|合理的检验统计量?
蒂姆(Tim)

这似乎是一个非常合理的测试统计数据,因为它是完全可解释且易于理解的。实际上,所有可能的统计数据都不会具有对称分布。让我们暂时忘记Fisher检验的细节-如果该统计信息对您有意义,则可以在此基础上计算精确检验(使用超几何计算找到概率)。如果您想证明它们在所有情况下都诱导相同的排序,则可能是一个新问题。
Glen_b-恢复莫妮卡

6

|X1个1个-μ| 通常不能具有超几何分布,因为 μ 不需要是整数值,然后 |X1个1个-μ|不会是整数。但有条件的话,X1个1个 将具有超几何分布。

如果您做得正确并且将边距固定为已知值,则可以考虑 X1个1个(或任何其他单元格)作为您的统计信息。与绘画类比ķ 包含containing的球 w ^ 白球和 黑球,无需更换, X1个1个 可以解释为画出的白球的数量,其中 是第一行的总和 w ^ 是第二行的总和 ķ 是第一列的总和。


4

它实际上没有一个。测试统计信息是历史异常-我们拥有测试统计信息的唯一原因是获得p值。Fisher的精确检验跳过了检验统计量,直接达到了p值。


谢谢,但是真的没有测试统计吗?那么如何确定p值呢?
蒂姆(Tim)

Fisher精确检验的结果是p值。
Jeremy Miles

@JeremyMiles:您的意思是说测试统计数据是历史异常,因为在进行低成本计算之前,用户先计算了Z,t等,然后将该测试统计数据与预先计算的表进行比较以确定统计显着性,因此,当前许多推论统计的用户仍然会以测试统计的方式思考何时可以轻松提供p值?换句话说,这是一种代际效应吗?
rabidotter

1
@rabidotter-是的,我想是的。您会看到写“ F = 14.352,df = 2,568,p <0.05”的人。几乎任何人都关心F的唯一原因是计算P,但他们却给F带来了巨大的精度,而给P带来了非常小的精度。
杰里米·迈尔斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.