Fisher精确检验和超几何分布


12

我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示:

> soda_gender

    f m
  n 0 5
  y 5 0

显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。

在R中运行fisher精确测试时,得到以下结果:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0 

在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。

我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

我的问题是:1)两个结果为何不同?2)我上面的推理有什么不正确或不严格的地方吗?

Answers:


10

Fisher的精确测试通过限制表边距(在这种情况下为5位男性和女性,以及5位饮用苏打水和不饮水的人)来进行工作。在无效假设的假设下,由于利润总计,观察男性苏打水饮用者,男性非苏打水饮用者,女性苏打水饮用者或女性非苏打水饮用者的细胞概率均具有相同的可能性(0.25)。

您用于FET的特定表格除了其相反的表格外,没有其他表格,其中有5名女性非苏打水饮用者和5名男性苏打水饮用者,在零假设的情况下,这“至少是不太可能的”。因此,您会注意到,在超几何密度中获得的概率加倍使您获得FET p值。


孟对phyper和fisher.test的注释(它们做同样的事情,但是具有非常不同的界面)非常有帮助:mengnote.blogspot.qa/2012/12/…–
Aditya
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.