为什么卡方检验使用期望的计数作为方差?


18

在测试中,将期望计数的平方根用作每个正态分布的标准偏差(即期望计数作为方差)的基础是什么?我唯一可以找到的讨论这件事的唯一方法就是http://www.physics.csbsju.edu/stats/chi-square.html,它只提到了泊松分布。χ2

作为我的困惑的简单说明,如果我们测试两个过程是否存在显着差异,一个过程会产生500 As和500 Bs的极小方差,另一个过程会产生550 As和450 Bs的极小方差(很少产生551 As和449 Bs)?此处的差异不是仅是预期值吗?

(我不是统计学家,所以要真正寻找非专家可以理解的答案。)


这可能有是与这样一个事实的方差χk2随机变量2k并且还与以下事实的统计必须乘以2具有正确的分布(如在似然比检验)。也许有人更正式地知道这一点。

Answers:


16

许多测试统计信息的一般形式是

observedexpectedstandarderror

在正常变量的情况下,标准误基于已知总体方差(z统计量)或样本估计值(t统计量)。对于二项式,标准误差基于比例(假设的测试比例)。

在列联表中,每个单元格中的计数都可以认为是来自泊松分布,其均值等于期望值(零值以下)。泊松分布的方差等于平均值​​,因此我们也将期望值用于标准误差计算。我已经看到,使用所观察到的,而不是一个统计量,但它具有较小的理论证明和不收敛,以及向分布。χ2


1
我陷入了与泊松的联系,无法理解为什么每个单元都可以认为是来自泊松。我知道泊松的均值/方差,并且我知道它们代表了给定速率的事件数。我也知道卡方分布代表标准(方差1)法线的平方和。我只是想把理由重新利用预期值作为每个法线“散布”的假设。这是否只是为了使所有内容符合卡方分布/“标准化”法线?

3
有几个问题,当事情相当独立时,泊松分布对于计数很常见。与其将表视为具有固定的总数,而没有将值分配在表的单元格之间,而是考虑表的一个单元格,而是等待固定的时间以查看有多少响应落入该单元格中,这符合Poisson的总体思想。对于大型意味着你可以近似泊松具有正态分布,所以检验统计是有意义的正常逼近泊松分布,然后转换为χ2
格雷格·斯诺

1
(+1)假设细胞计数用平均独立泊松随机变量ñ π 。然后,当然,Σ ķ = 1X - ñ π 2Xi,,Xknπi中的分布。但是,这样做的问题是n是一个参数,而不是实际观察到的计数。总观测计数Ñ=Σ ķ = 1 XPøÑ。尽管SLLN几乎可以确定N/n1,但是还需要做更多的工作才能将启发式方法变为可行的方法。i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
主教

作为我的困惑的简单说明,如果我们测试两个过程是否存在显着差异,一个过程会产生500 As和500 Bs的极小方差,另一个过程会产生550 As和450 Bs的极小方差(很少产生551 As和449 Bs)?此处的差异不是仅是预期值吗?

1
@Yang:听起来您的数据-您尚未描述-不符合使用卡方统计量的基础模型。标准模型是多项式抽样之一。严格来说,甚至没有涉及(无条件的)泊松采样,这就是格雷格的答案。我在以前的评论中对此做了(也许是令人费解的)引用。
主教

17

让我们处理最简单的情况以尝试提供最大的直觉。令为来自具有k个结果的离散分布的iid样本。让π 1... π ķ是每个特定结果的概率。我们感兴趣的卡方统计的(渐近)分布 X 2 = ķ Σ= 1小号 π 2X1,X2,,Xnkπ1,,πk 这里 ñ π 是计数的预期数量个结果。

X2=i=1k(Sinπi)2nπi.
nπii

启发式启发式

限定,使X2=ΣÙ 2 =ü 2 2其中û=Û1...ÚķUi=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

由于ÑÑ π ,然后通过中心极限定理Ť = û SiBin(n,πi) 因此,我们也有, ü ð Ñ0 1 - π

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

现在,如果是(渐近)独立(他们都没有),那么我们可以说, Σ 牛逼2 是渐近χ 2 ķ分布。但是,请注意,T kT 1T k 1的确定性函数,因此T i变量不可能独立。TiiTi2χk2Tk(T1,,Tk1)Ti

因此,我们必须以某种方式考虑它们之间的协方差。事实证明,“正确”的方式做到这一点是使用,而是和组件之间的协方差ü也改变从我们可能会想到的是渐进分布χ 2 ķ的是什么,事实上,一个χ 2 ķ - 1UiUχk2χk12

有关此的一些详细信息。

更严格的处理

不难检查,实际上, ĴCov(Ui,Uj)=πiπjij

因此,协方差一个 = - U 其中

A=IππT,
。需要注意的是 是对称的,幂等的,即,=2=Ť。所以,特别是,如果ž=Ž1...Žķ具有独立同分布的标准正常组分,然后žÑ0。(注意,在这种情况下,多元正态分布是退化的。)π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

现在,根据多元中心极限定理,向量具有均值0和协方差A的渐近多元正态分布。U0A

因此,具有与A Z相同的渐近分布,因此,根据连续映射定理X 2 = U T U的相同渐近 分布与Z T A T A Z = Z T A Z的分布相同。UAZX2=UTUZTATAZ=ZTAZ

但是,是对称的,幂等的,从而()具有正交的特征向量,(b)它的所有特征值都为0或1,和(c ^)1项是本征值的多重ř 一个Ñ ķ。这意味着,一个可被分解为 = Q d Q Ť其中Q是正交的,并且d是与一个对角矩阵[R 一个Ñ ķ在对角线上一和剩余对角线项为零。Arank(A)AA=QDQTQDrank(A)

因此,必须χ 2 ķ - 1分布式自 具有秩ķ - 1在我们的例子。ZTAZχk12Ak1

其他连接

卡方统计也与似然比统计密切相关。实际上,它是Rao得分统计量,可以视为似然比统计量的泰勒级数逼近。

参考文献

这是我根据经验得出的自己的发展,但显然受到古典文本的影响。寻找更多信息的好地方是

  1. GAF Seber和AJ Lee(2003),《线性回归分析》,第二版,Wiley。
  2. E. Lehmann和J. Romano(2005),《测试统计假设》,第三版,Springer。特别是第14.3节
  3. DR Cox和DV Hinkley(1979),《理论统计》,查普曼和霍尔。

(+1)我认为很难在Agresti,A.(2002)这样的标准分类数据分析文本中找到此证明。分类数据分析。约翰·威利
suncoolsu 2011年

感谢您的评论。我知道阿格雷斯蒂(Agresti)对卡方统计量有一些处理,但是不记得他走了多远。他可能只是利用似然比统计来求取渐近等价。
主教

k1

XS
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.