鉴于当今计算机的强大功能,是否有理由进行卡方检验而不是费舍尔的精确检验?


86

鉴于如今软件可以轻松地进行Fisher精确检验的计算,在任何情况下,从理论上或实践上,卡方检验实际上都比Fisher精确检验更可取吗?

Fisher精确测试的优点包括:

  • 缩放到大于2x2的列联表(即任何r x c表)
  • 给出精确的p值
  • 不需要最小期望单元格数即可有效

10
因为它是很好的旧经典。很快它将成为精致的年份。此后,当人们抵制计算机时,它将迎来第二个年轻人。
ttnphns 2011年

7
您是否曾经尝试过在大型表上计算Fisher的精确测试统计量?(花费的时间太长了……)
抱怨

22
除了您已经获得的好评和答案之外,我认为更好的问题是“考虑到计算机的功能,为什么不一直进行模拟/置换测试?”。
彼得·富勒姆

1
@whuber我在C ++中没有(大量)表地进行了(专有)实现。它运行数以千计的P值,以秒为单位最多可显示8位数字。
Michel de Ruiter

1
@Michel我的意思是表中单元格的总数。对于2 x 2的表,计算很容易,但是随着表的增大,计算变得很麻烦。
ub

Answers:


61

χ2

χ2PN1N


来自R-help,2009年

坎贝尔(Campbell),卡方(I. Chi-squares)和费舍尔-欧文(Fisher-Irwin)对两乘两桌的测试,并带有少量样本建议。医学统计学 2007; 26:3661-3675。(摘要

  • ...阿米蒂奇(Amitage)书的最新版本建议不要将连续性调整用于列联表卡方检验;

  • E. Pearson卡方检验的Pearson修改,与原始值相差(N-1)/ N;

  • Cochran指出“预期频率低于5”中的数字5是任意的;

  • 对于比较试验,已发表研究的发现可以总结如下

    1. 耶特(Yate)的卡方检验的 I型错误率小于标称值,通常小于标称值的一半。

    2. 费雪欧文测试有I型误差率小于标称;

    3. K Pearson版本的卡方检验的I型错误率比Yate的卡方检验和Fisher-Irwin检验更接近标称值,但在某些情况下,I类错误的幅度明显大于标称值。

    4. “ N-1”卡方检验的行为类似于K. Pearson的“ N”版本,但是降低了高于标称值的趋势;

    5. 双面使用欧文的规则费雪欧文测试比方法单面概率倍增更少保守;

    6. 通过将单边概率加倍,中P的Fisher-Irwin检验的性能优于Fisher-Irwin检验的标准版本,而按照Irwin的规则进行的中P方法的实际I型误差更接近标称水平。 “;

  • 如果预期频率超过1,则对“ N-1”测试的大力支持;

  • Fisher检验的缺陷是基于Fisher的假设,即边际总数没有有用的信息;

  • 以很小的样本量展示其有用的信息;

  • 耶特(Nate)的N / 2连续性调整量很大,过矫且不合适;

  • 在随机试验中使用随机试验存在相反的论点;

  • 最坏情况的计算;

  • 总体建议:当所有预期频率均至少为1时,使用“ N-1”卡方检验;否则,使用欧文法则将Fisher-Irwin检验用于Irving法则进行双面检验,尽可能少或少地从尾巴中取出桌子,如所观察到的;参见安东尼奥·安德烈斯(Antonio Andres)给编辑的信以及作者在27:1791-1796的答复;2008。


克兰斯GG,舒斯特·JJ。Fisher的精确测试有多保守?对两个样本的比较二项式试验进行定量评估。医学统计学 2008; 27:3598-3611。(摘要

  • ...第一篇真正量化Fisher检验保守性的论文;

  • “ 50前几乎所有样品尺寸的FET测试尺寸都小于0.035,即使样品尺寸超过100,FET的测试尺寸也不接近0.05。”

  • “精确”方法的保守性;

  • 请参阅2009年Med 28:173-179中的Stat,以获取尚未得到答复的批评


2×2

  • P

  • 无条件测试的价值;

  • 见致编辑的信30:890-891; 2011


1
您能建议如何应用(N-1)/ N校正吗?是否有任何包含此更正的在线计算器?有没有简单的方法可以手动调整卡方检验的结果以自己进行校正?
DW

我上面列出的参考文献之一是您最好的选择。
弗兰克·哈雷尔

1
χ2 χ2

2
将某物标记为“精确”并不能做到这一点。请参阅以下@suncoolsu的精彩说明,您肯定已经错过了(您也错过了上面的所有说明)。Pearson测试比Pearson认为的更加准确。例如,请参见citeulike.org/user/harrelfe/article/13265687citeulike.org/user/harrelfe/article/13263676。Fisher的“精确”测试仅在真正的I类错误不超过所声明的范围内才是精确的。但是事实证明它比要求的要小,因此II型误差更高,意味着功耗更低。
Frank Harrell

我知道精确性的含义。我不喜欢精确测试的确切点是I型错误高于标称水平的可能性。但是,你是对的,我误解你的答案,另一种(两国都是伟大的)
斯特凡洛朗

47

这是一个很好的问题。

Fisher的精确测试是Fisher聪明地使用实验设计的一个很好的例子,它结合了数据条件(基本上是基于观察到的行和边际总数的表)以及他在寻找概率分布方面的独创性(尽管这不是最好的例子) ,有关更好的示例,请参见此处)。使用计算机计算“精确的” p值无疑有助于获得准确的答案。

但是,在实践中很难证明Fisher精确检验的假设是正确的。因为所谓的“精确”来自以下事实:在“品茶实验”或2x2列联表中,行总数和列总数(即边际总数)是通过设计固定的。在实践中,这种假设很少成立。有关参考,请参见此处

名称“精确”使人们相信此测试给出的p值是准确的,由于这些原因,不幸的是,在大多数情况下,这还是不正确的

  1. 如果边缘不是由设计决定的(实际上几乎每次都会发生),则p值将是保守的。
  2. 由于测试使用离散的概率分布(特别是超几何分布),因此对于某些临界值,无法计算“精确的零概率”,即p值。

在大多数实际情况下,使用似然比检验或卡方检验不应给出与费舍尔精确检验完全不同的答案(p值)。是的,当边际固定时,费舍尔的精确检验是更好的选择,但这很少发生。因此,始终建议使用似然比检验的卡方检验进行一致性检查。

当费舍尔的精确检验推广到任何表时,类似的想法也适用,基本上等同于计算多元超几何概率。因此,除了“精确” p值外,还必须始终尝试基于p值计算卡方和似然比分布。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.