卡方检验和等比例检验之间的关系是什么？

假设我有三个具有四个互斥特征的人口。我从每个总体中随机抽取样本，并针对我要测量的特征构建交叉表或频率表。我的说法是否正确：

如果我想测试总体与特征之间是否存在任何关系（例如，一个总体是否具有较高的特征之一频率），我应该进行卡方检验，看看结果是否显着。
如果卡方检验显着，则仅表明人口与特征之间存在某种关系，而没有关系。
此外，并非所有特征都需要与人口有关。例如，如果不同的总体具有特征A和B的显着不同的分布，但没有特征C和D的分布，则卡方检验可能仍然具有显着性。
如果我想衡量一个特定的特性是否受影响人口，那么我可以运行相同比例的测试（我已经看到了这个被称为Z测试，或prop.test()在R）在这一点特点。

换句话说，prop.test()当卡方检验表明存在显着关系时，使用来更准确地确定两组类别之间关系的性质是否合适？

— hgcrpd
source

另请阅读：stats.stackexchange.com/q/173415/3277。

— ttnphns

Answers:

答案很简短：

卡方检验（chisq.test()R中的R）将列联表的每个类别中观察到的频率与预期频率（计算为边际频率的乘积）进行比较。它用于确定观察到的计数与预期计数之间的偏差是否太大而不能归因于机会。通过检查残留物（尝试?mosaicplot或?assocplot，但也要检查vcd包装），可以轻松检查是否偏离独立性。用fisher.test()一个确切的测试（依靠超几何分布）。

prop.test()R中的函数允许测试组之间的比例是否可比或与理论概率没有差异。之所以称为测试，是因为测试统计信息如下所示： $z$

z = \frac{(f_{1} - f_{2})}{\sqrt{\hat{p} (1 - \hat{p}) (\frac{1}{n_{1}} + \frac{1}{n_{2}})}}

$z=\frac{(f_1-f_2)}{\sqrt{\hat p \left(1-\hat p \right) \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$

其中，索引指向表的第一行和第二行。在双向列联表中，其中，这应该可以产生与普通测试相当的结果： $\hat p=(p_1+p_2)/(n_1+n_2)$ $(1,2)$ $H_0:\; p_1=p_2$ $\chi^2$

> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476

> prop.test(tab)

    2-sample test for equality of proportions with continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided 
95 percent confidence interval:
 -0.15834617  0.04723506 
sample estimates:
   prop 1    prop 2 
0.8333333 0.8888889

对于使用R分析离散数据，我强烈推荐Laura Thompson 随Agresti的《分类数据分析》（2002）一起使用R（和S-PLUS）手册。

— hl
source

prop.test（）执行的测试是否有通用名称？

— Atticus13年

“它称为z检验”。

— russellpierce 2014年

@chl我有点困惑-我想prop.test和chisq.test都使用卡方，这可以解释在相同的p值，以及为什么在这个职位上R-博客，他们有自己的特设功能。

— 安东尼·帕雷拉达

@Antoni是的，这是Keith在他的回复中解释的。

— chl 2015年

什么是和，，，，？

n_{1}

$n_1$

n_{2}

$n_2$

f_{1}

$f_1$

f_{2}

$f_2$

p_{1}

$p_1$

p_{2}

$p_2$

— tomka's

两个比例相等的卡方检验与检验完全相同。具有一个自由度的卡方分布只是正态偏差平方的分布。基本上，您只是对列联表的子集重复卡方检验。（这就是为什么@chl在两个测试中都获得完全相同的值的原因。） $z$ $p$

首先在全局范围内进行卡方检验，然后再下潜以对子集进行更多检验的问题是，您不一定会保留alpha值-也就是说，您不会将误报率控制为小于5％（或无论）在整个实验。 $\alpha$

我认为，如果您想在经典范式中正确执行此操作，则需要从一开始就确定您的假设（要比较的比例），收集数据，然后对假设进行检验，以使每个检验和的重要性的总阈值总和到。除非您可以先验证明存在某种关联。 $\alpha$

比例相等性最强大的检验称为Barnard优越性检验。

— 基思·温斯坦（Keith Winstein）
source

@gung我有点困惑-我想prop.test和chisq.test都使用卡方，这可以解释在相同的p值，以及为什么在这个职位上R-博客，他们有自己的特设功能。

— 安东尼·帕雷拉达

我不明白是什么让您感到困惑，@ AntoniParellada。该答案表明它们“完全相同”，如果“两者都使用卡方”，则这是有意义的。

— gung-恢复莫妮卡

原始答案chl中的@gung指出prop.test()...与...相反，被称为z检验chisq.test()。后来，基思说：“两个比例相等的卡方检验与z检验完全相同。（这就是为什么@chl在两个检验中都获得完全相同的p值的原因。）

— Antoni Parellada

@AntoniParellada这似乎只是一个不切实际的措辞。从概念上讲，这两个测试是不同的，这就是我在您看到的其他答案中所讨论的。但是从数学上讲，它们是等效的。实际上，我相信R函数prop.test()实际上只是chisq.test()以不同的方式调用和打印输出。

— gung-恢复莫妮卡

@gung我一直在从事类似于R-Bloggers的功能，并且我打算为初学者水平的人发布一个帖子，实际上是引用您关于您编写的一些关键概念的内容，并通过数学计算得出了两者的差异。平方和z检验，然后给出R代码。

— Antoni Parellada 2015年