Answers:
列联表应包含两个轴上的所有互斥类别。近海/中海道/近海看起来不错,但是,除非在此生物环境中“低于100%死亡率”表示“ 100%生存”,否则您可能需要构建表以说明所有观察到的情况,或者解释为什么将分析限制在极端范围内样品的两端。
由于100%的生存意味着0%的死亡率,因此您可以创建一个表格,其中的列为100%=死亡率/ 100%>死亡率> 0%/死亡率= 0%。在这种情况下,您不再需要比较百分比,而是比较三种站点类型类别中的有序死亡率指标。(如何使用原始百分比值而不是类别?)此处可能需要适当考虑版本关系的Kruskal-Wallis测试版本(可能是置换测试)。
为Kruskal-Wallis检验有既定事后测试:1,2,3。(重采样方法可能有助于解决联系。)
逻辑回归和二项式回归可能会更好,因为它们不仅可以为您提供p值,而且还可以提供有用的估计值和效应量的置信区间。但是,要建立这些模型,将需要有关100%>死亡率> 0%站点的更多详细信息。
我将假设“ 100%生存”意味着您的站点仅包含一个有机体。所以30意味着30个生物死亡,而31意味着31个生物没有死亡。基于此,卡方应该很好,但是它只会告诉您数据不支持哪个假设-它不会告诉您两个合理的假设是否更好。我提出了一种概率分析,它确实提取了此信息-与卡方检验一致,但与卡方检验相比,它为您提供了更多信息,并且是呈现结果的更好方法。
该模型是用于“死亡”指标的伯努利模型,(表示表的单元格,表示其中的单个单位细胞)。
卡方检验有两个全局假设:
将表示为的总和(因此),令为组大小(因此)。现在我们有一个假设要检验:
但是还有哪些选择呢?我会说其他相等或不相等的可能组合。
鉴于上述“全局”假设,这些假设之一必须成立。但是请注意,这些都没有指定费率的特定值-因此必须将其整合。现在假设为真,我们只有一个参数(因为所有参数都相等),并且统一先验是一个保守的选择,用表示该假设和全局假设。所以我们有:
这是超几何分布除以常数。同样,对于我们将拥有:
您可以看到其他模式。通过简单地将上述两个表达式相除,我们可以计算出说的几率。答案大约是,这意味着数据支持比高出大约倍-相当薄弱的证据支持均等利率。其他概率在下面给出。
这显示了反对同等利率的有力证据,但没有强有力的证据支持确定的替代方案。似乎有确凿的证据表明“离岸”利率与其他两个比率不同,但是对于“离岸”利率和“中间渠道”利率是否不同尚无定论。这就是卡方检验不会告诉您的内容-它仅告诉您假设是“废话”,而不是替代它的替代方法
这是执行卡方检验以及生成各种检验统计信息的代码。但是,表边距关联的统计测试在这里没有用;答案很明显。没有人进行统计检验以查看夏天是否比冬天更热。
Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2)
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)
我相信您可以使用“同时置信区间”进行多次比较。参考是Agresti等。2008同时置信区间用于比较二项式参数。生物识别64 1270-1275。
您可以在http://www.stat.ufl.edu/~aa/cda/software.html中找到相应的R代码