为什么McNemar的检验使用卡方而不是正态分布?


Answers:


15

一个接近直觉的答案:

鉴于下表,仔细研究了McNemar检验的公式

      pos | neg
----|-----|-----
pos |  a  |  b
----|-----|-----
neg |  c  |  d

McNemar统计M量的计算公式为:

中号=b-C2b+C

一个的定义分布的k自由度是,它包括的总和的平方 K个独立的标准正态变量。如果4个数字是足够大的,并且,因此而可以通过正态分布来近似。鉴于M上的公式,它很容易看出,有足够大的值确实将跟随大约χ 2分布,自由度为1。χ2bcb-cb+cMχ2


编辑:正当停止时,正常近似实际上是完全等效的。给定参数使用b-c正态分布的近似值,这相当琐碎。

确切的二项式形式也等效于符号检验,在这个意义上说,在此版本中,二项式分布用于b。或者我们可以说,在零假设下,b的分布可以近似为N 0.5 × b + c 0.5 2 × b + c 一世ñØb+C0.5ñ0.5×b+C0.52×b+C

或者,等效地:

b-b+C2b+C2ñ01个

简化为

b-Cb+Cñ01个

中号χ1个2

χ2


3
那就对了。通过考虑Sqrt(M)=(bc)/ Sqrt(b + c),可以更清楚地看到连接。将b的方差近似为b,将c的方差近似为c(对于计数数据通常如此),我们看到Sqrt(M)看起来像是近似正态变量(bc)除以其标准差:换句话说,看起来像标准正态变量。实际上,我们可以通过将Sqrt(M)引用到标准正态分布表中来进行等效测试。有效地平方使该测试对称两尾。显然,如果b或c较小,这种情况就会破坏。
ub

感谢您直观的回答Joris。但是,为什么使用这种近似而不是对麦克尼玛的精确二项式检验使用正态近似更常见?
Tal Galili 2010年

@Tal:一样。看到不间断的答案和我的编辑。
Joris Meys

其实-最后一个问题。因此,如果两者都相同(我认为您可能还需要在公元前加上一个“绝对值”),那么为什么人们选择chi分布而不是保持正常分布呢?优势在哪里?
Tal Galili 2010年

1
@Tal:您知道R.以一个自由度绘制chi2,您会看到的。
Joris Meys 2010年

8

两种方法难道不是一回事吗?相关的卡方分布具有一个自由度,因此具有标准正态分布的随机变量的平方分布也很简单。我必须仔细检查代数,而我现在没有时间去做,但是如果您两种方法都没有得到完全相同的答案,我会感到惊讶。


看我为进一步阐述答案
里斯Meys

嗨,一站式-由于两者都是渐近的,因此对于较小的N,它们可能会产生一些不同的结果。在这种情况下,我想知道选择使用卡方运算是否是因为它比常规近似更好,还是因为历史原因(或者,正如您所建议的-它们总是产生相同的结果)
Tal Galili

@Tal:对于较小的N,两者都不成立。如我的编辑所示,它们完全相同。
Joris Meys
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.