答案很简短:
卡方检验(chisq.test()
R中的R)将列联表的每个类别中观察到的频率与预期频率(计算为边际频率的乘积)进行比较。它用于确定观察到的计数与预期计数之间的偏差是否太大而不能归因于机会。通过检查残留物(尝试?mosaicplot
或?assocplot
,但也要检查vcd
包装),可以轻松检查是否偏离独立性。用fisher.test()
一个确切的测试(依靠超几何分布)。
prop.test()
R中的函数允许测试组之间的比例是否可比或与理论概率没有差异。之所以称为测试,是因为测试统计信息如下所示:z
z=(f1−f2)p^(1−p^)(1n1+1n2)−−−−−−−−−−−−−−−−√
其中,索引指向表的第一行和第二行。在双向列联表中,其中,这应该可以产生与普通测试相当的结果:p^=(p1+p2)/(n1+n2)(1,2)H0:p1=p2χ2
> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)
Pearson's Chi-squared test with Yates' continuity correction
data: tab
X-squared = 0.8823, df = 1, p-value = 0.3476
> prop.test(tab)
2-sample test for equality of proportions with continuity correction
data: tab
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided
95 percent confidence interval:
-0.15834617 0.04723506
sample estimates:
prop 1 prop 2
0.8333333 0.8888889
对于使用R分析离散数据,我强烈推荐Laura Thompson 随Agresti的《分类数据分析》(2002)一起使用R(和S-PLUS)手册。