NXM列联表的统计测试


12

我有一个由三组元素组成的数据集,我们称它们为G1,G2和G3。我分析了这些元素的某些特征,并将它们分为“行为” T1,T2和T3 3种类型(我使用聚类分析来完成)。

因此,现在我有了一个3 x 3的列联表,其中三个组中的元素计数按类型划分:

      |    T1   |    T2   |    T3   |
------+---------+---------+---------+---
  G1  |   18    |   15    |   65    | 
------+---------+---------+---------+---
  G2  |   20    |   10    |   70    |
------+---------+---------+---------+---
  G3  |   15    |   55    |   30    |

现在,我可以对R中的这些数据进行Fisher测试

data <- matrix(c(18, 20, 15, 15, 10, 55, 65, 70, 30), nrow=3)
fisher.test(data)

我得到

   Fisher's Exact Test for Count Data

data:  data 
p-value = 9.028e-13
alternative hypothesis: two.sided     

所以我的问题是:

  • 这样使用Fisher测试是否正确?

  • 我怎么知道谁和谁不同?我可以使用事后测试吗?查看数据,我想说第三组的行为与前两组不同,如何从统计学上证明这一点?

  • 有人向我指出了logit模型:对于这种类型的分析,它们是否可行?

  • 还有其他分析此类数据的选择吗?

万分感谢

尼科

Answers:


13

首先,我认为Fisher测试是正确使用的。

使用对数线性模型(不是logit,以确保拟合值限制在下面)可以更好地处理计数数据。在R中,您可以指定family=poisson(设置错误= Poisson,链接= log)。对数链接可确保所有拟合值均为正值,而泊松误差则考虑到数据为整数且方差等于其均值的事实。例如glm(y~x,poisson),该模型配有对数链接和泊松误差(以解决非正态性)。

在存在过度分散的情况下(如果合适的话,泊松误差假设,残余偏差应等于残余自由度)quasipoisson,您可以使用负二项式模型代替误差系列。(这涉及glm.nb包中的功能MASS

在您的情况下,您可以使用以下命令来拟合和比较模型:

observed <- as.vector(data)
Ts<-factor(rep(c("T1","T2","T3"),each=3))
Gs<-factor(rep(c("G1","G2","G3"),3))

model1<-glm(observed~Ts*Gs,poisson)

#or and a model without the interaction terms
model2<-glm(observed~Ts+Gs,poisson)


#you can compare the two models using anova with a chi-squared test
anova(model1,model2,test="Chi")
summary(model1)

始终确保最小模型包含所有有害变量。

至于我们如何知道谁与谁不同,有一些情节可能会对您有所帮助。R函数assocplot产生一个关联图,该关联图指示与二维列联表中行和列的独立性之间的偏差。

这是作为镶嵌图绘制的相同数据

mosaicplot(data, shade = TRUE)

谢谢,这正是我所需要的。当您谈论过度分散时,我不确定您的意思(对不起,我不是统计学家,也许这是非常基本的东西)...您说剩余偏差应等于剩余自由度...我将如何检查?
nico 2010年

如果您给summary(model1)您,您会看到类似Residual deviance: -2.7768e-28 on 0 degrees of freedom
George Dontas

4

您可以使用multinom从NNET包多项式回归。事后检验,您可以使用汽车包装中的linearHypothesis。您可以使用线性假设(Wald检验)或方差分析(LR检验)进行独立性测试。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.