我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示:
> soda_gender
f m
n 0 5
y 5 0
显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。
在R中运行fisher精确测试时,得到以下结果:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。
我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
我的问题是:1)两个结果为何不同?2)我上面的推理有什么不正确或不严格的地方吗?