卡方检验分布是否相等:它可以容忍多少个零?


10

我正在比较两组突变体,每组突变体只能具有21种不同表型中的一种。我想看看两组之间这些结果的分布是否相似。我找到了一个在线测试 ,用于计算“分布均等性的卡方检验”,并给出一些合理的结果。但是,此表中有很多零,所以在这种情况下我可以完全使用卡方吗?

这是具有两组和特定表型计数的表:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

该表不正确。每个奇数都是来自组1的计数,每个偶数都是来自组2的计数
Membran 2010年

我已经重新格式化了您的问题。该表格现在正确吗?
csgillespie 2010年

Answers:


8

这几天完全可以在这样的桌子上进行Fisher的“精确”测试。我只是使用Stata获得了p = 0.087(tabi 2 1 \ 2 3 \ .... , exact。执行时间为0.19秒)。

在下面的chl评论后进行编辑(尝试添加为评论,但无法格式化):

它对我来说在R 2.12.0中有效,尽管我必须将'workspace'选项增加到其默认值200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(执行时间比Stata中的要快一些,但是考虑到错误消息的含义需要花费时间,这具有可疑的意义,尽管有fisher.test的事实,但使用'工作区'的含义与R的通常含义有所不同。是R的核心“统计”数据包的一部分。)


1
有趣的是,费舍尔的测试坠毁,机上R.
CHL

不能再投票了,对不起。看来我没有充分增加wksp :)
chl

费舍尔的“精确”测试实际上解决的是稍微不同的问题:“ ...它用于检查两种分类之间的关联(偶然性)的重要性”(维基页面)。以我为例,我试图确认(或驳斥)以下假设:两组之间的表型分布相似(相等)。当我发现名为“分布均等性的卡方检验”的在线测试(请参阅第一篇文章)时,我认为这完全是出于我的问题……
Membran 2010年

另外,如果您认为提到的Fisher检验版本适合比较两个分布,那么它也可以用于检查分布的均匀性吗(也就是说,一组内的表型在有限数量的可能表型之间分布不均匀)。 ?即使使用Excel的CHITEST函数也可以在Excel中执行此操作,但是如果我的分布与上述分布相似,并且许多表型的观察次数少于5次,该怎么办?
Membran

@Membran#1:这是一个稍微不同的问题,因为费舍尔对两组边际总数的确切测试条件。不过,这对我来说似乎是学术上的统计优势,而且我是学术界的统计学家。(顺便说一句,你可以澄清维基您参考?)@Membran#2:我不会把条件精确检验在单向表的情况下,“费舍尔精确检验”,但这样的测试应该是possible.and我本来认为单向表更简单,但是我目前找不到能够提供帮助的软件,没有时间我就没有时间进行计算。
一站式

5

通常的准则是预期计数应大于5,但是可以放松一些,如下面的文章所述:

坎贝尔,一世,卡方检验和费舍尔-欧文两两表检验,并带有少量样本建议,《医学统计》(2007)26(19):3661–3675。

另请参见Ian Campbell的主页

pchisq.test(..., sim=TRUE)

在您的情况下,似乎约80%的预期计数低于5,而40%的预期计数低于1。汇总一些观察到的表型是否有意义?


谢谢你的建议。从逻辑上讲,合并表型是不可能的,因为它们是三个记录参数的唯一组合。由于突变导致这些参数中的每一个可以“向上”,“向下”或保持“不变”,因此可以有3 ^ 3 = 27个不同的表型。在上面的示例中,我删除了两组均得分均为“ 0”的表型,因此只有21种。我确实看到了某些表型的普遍性,但是我想得到一些统计证明,即这些表型在各组突变体中的分布是相似的(或不相似)。谢谢!
Membran

1
@Membran Aggregation不一定有意义:您可以随意随意组合垃圾箱。但是,一个细微的问题是事实后聚合会产生不确定的p值。聚合应该独立于数据。
Whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.