在Excel vs R中计算卡方的奇怪方法


9

我正在查看一个自称正在计算的Excel工作表,但我不知道这样做的方式,我想知道是否丢失了某些东西。χ2

这是它正在分析的数据:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

这是为计算卡方而对每个组所做的总和:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

因此,对于每个组,为:χ2

2.822793
2.822793
1.759359
4.136448

总的Chi平方为:11.54139

但是,我看到的每个计算示例都与此完全不同。我会为每个小组做的:χ2

chiSq = (Observed-Expected)^2 / Expected

因此,对于上面的示例,我得到的总卡方值为11.3538

我的问题是-为什么他们在Excel工作表中以这种方式计算?这是公认的方法吗?χ2

更新

我想知道这一点的原因是,我试图用R语言复制这些结果。我正在使用chisq.test函数,它的编号与Excel工作表的编号不同。因此,如果有人知道如何在R中执行此方法,将非常有帮助!

更新2

如果有人感兴趣,这是我在R中的计算方法:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

第二次更新中的方法应提供正确的统计信息。但是,如果您的期望值不是基于观测值的总和,则可能会出现问题,因为那里的p值取决于此条件。但是,我注意到期望值和观察值的总数相同(不太可能偶然发生),所以这可能很好。您可以这样更轻松地进行操作:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b-恢复莫妮卡(Monica)2014年

@Glen_b在Excel工作表中,我认为期望是通过计算总人口*我上面计算出的'P'值得出的。这会是一个问题吗?而且总人口确实有所不同-大多数时候是2000,但实际上可以是任何数字。我要在此处重新创建的Excel工作表实际上并未考虑p值,因此,如果统计信息不会受到此影响,那么这可能不是问题...
user1578653 2014年

问题归结为p的来源。它们是否涉及查看观察到的总数?
Glen_b-恢复莫妮卡2014年

然而对于我来说,它看起来像PS,因此预期是基于双方的总观察数与总人口数。不过在我在Excel工作表被赋予了所有的例子期望值也似乎符合总观察数/计数数。
user1578653 2014年

如果p以这种方式基于计数,则当然会遵循预期。如果是这样的话,看起来自由度等等在您使用R时的方式都很好-但我的解释中可能需要更改几句话。
Glen_b-恢复莫妮卡2014年

Answers:


13

事实证明这很简单。

显然,这是二项式抽样。有两种查看方法。

方法1,即处理电子表格的方法,它处理观察到的计数 X一世箱子ñ一世p一世,大约为 ñμ一世=ñ一世p一世σ一世2=ñ一世p一世1个-p一世。因此,ž一世=X一世-μ一世/σ一世 大约是标准的 ž是独立的,所以(大约) 一世ž一世2χ2

(如果p基于观察到的计数,则 ž不是独立的,但仍然是卡方,但自由度要少一些。)

方法2:您对 Ø-Ë2/Ë的形式,卡方也可以,但是它要求你带不仅那些在类别你已经标记为“观察”,但也考虑那些没有在该类别:

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

哪里 Ë第一列的为您所拥有的,第二列的为 ñ一世1个-p一世

...然后求和 Ø-Ë2/Ë 在两列上。

两种形式在代数上是等效的。注意 1个/p+1个/1个-p=1个/p1个-p。考虑我ŤH 卡方的行:

X一世-μ一世2σ一世2=X一世-ñ一世p一世2ñ一世p一世1个-p一世=X一世-ñ一世p一世2ñ一世p一世+X一世-ñ一世p一世2ñ一世1个-p一世=X一世-ñ一世p一世2ñ一世p一世+ñ一世-ñ一世+ñ一世p一世-X一世2ñ一世1个-p一世=X一世-ñ一世p一世2ñ一世p一世+ñ一世-X一世-ñ一世-ñ一世p一世2ñ一世1个-p一世=X一世-ñ一世p一世2ñ一世p一世+ñ一世-X一世-ñ一世1个-p一世2ñ一世1个-p一世=Ø一世一个-Ë一世一个2Ë一世一个+Ø一世一个¯-Ë一世一个¯2Ë一世一个¯

这意味着您应该双向获得相同的答案,直到舍入错误为止。

让我们来看看:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

卡方= 11.353846 + 0.187548 = 11.54139

哪个符合他们的答案。


1
谢谢你的帮助!我不是数学家/统计学家,所以这最初使我感到困惑,但是您的解释非常容易理解。
user1578653 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.