皮尔逊的卡方统计量如何近似于卡方分布


10

因此,如果为表给出了Pearson的卡方统计量,则其形式为:1×N

i=1n(OiEi)2Ei

然后,当样本量变大时,它近似,即具有个自由度的卡方分布。 χn12n1N

我不明白的是这种渐近近似是如何工作的。我觉得分母中的应该替换为。因为那会给您,对于。但是,当然,这具有个自由度,而不是,因此显然正在发生其他事情。Eisi2niχn2=i=1nZi2Zin(0,1)nn1


尽管这不能回答您的问题,但可能会有所启发。
ub

Answers:


11

我将直观地激发这一点,并指出两组特殊情况下的结果,假设您很高兴接受二项式的正态近似。

希望这足以让您很好地理解其工作原理。

您是在谈论契合度检验的卡方。假设有群组(您将其设为,但是有一个原因我倾向于将其称为)。knk

在用于这种情况的模型中,计数,是多项式Oii=1,2,...,k

令。计数以总和为条件(在某些相当罕见的情况下除外);每个类别都有一些预先确定的概率集合,总和为。N=i=1kOiNpi,i=1,2,,k1

与二项式一样,多项式也有一个渐近正态近似值-实际上,如果仅考虑给定像元中的计数(是否为“此类别”),则该值为二项式。就像二项式一样,计数的方差(以及它们在多项式中的协方差)是和的函数;您不会单独估算方差。Np

即,如果期望计数足够大,则计数向量近似均值。但是,因为计数以为条件,所以分布是退化的(因为在计数中指定固定了剩余数,所以它存在于维度的超平面中)。方差-协方差矩阵具有对角项和角元素,并且由于简并性,其等级为。Ei=NpiNk1k1Npi(1pi)Npipjk1

结果,对于单个单元格,您可以编写。但是,这些项是相关的(负相关),因此,如果将这些的平方,则将不会具有分布(如果它们是独立的标准变量,则将是分布)。相反,我们可以潜在地从原始构造一组独立变量,这些变量是独立的并且仍然近似正态(渐近正态)。如果将它们的(标准)平方相加,我们将得到。有多种方法可以构建这样的Var(Oi)=Npi(1pi)zi=OiEiEi(1pi)ziχk2k1kχk12k1 变量是显式的,但幸运的是,它有一个非常简洁的捷径,它避免了相当大的工作量,并且产生了与我们费尽周折相同的结果(统计量的相同值)。

为简单起见,请考虑两个类别的拟合优度(现在是二项式)。在第一个单元中的概率为,在第二个单元中的概率为。第一个单元格中有观测值,第二个单元格中有观测值。p1=pp2=1pX=O1NX=O2

观察到的第一个单元格计数渐近。我们可以将其标准化为。然后近似为(渐近)。XN(Np,Np(1p))z=XNpNp(1p)z2=(XNp)2Np(1p)χ12χ12

注意

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)]

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p)

因此这是我们从开始-渐近地是随机变量。两个单元格之间的依存关系是这样的:通过用而不是潜水,我们可以精确地补偿两者之间的依存关系,并获得原始的近似正态随机变量平方。i=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

求和-同种总和依赖性是由当有两个以上的类别相同的方法照顾代替在所有项上,您可以精确地补偿依赖性的影响,并获得等于独立法线之和的和。(OiEi)2Ei(OiEi)2Ei(1pi)kk1

有多种方法可以证明统计量对于较大的具有渐近的分布(在某些本科统计课程中已经涵盖,并且可以在许多本科水平的教材中找到),但我不想带领您超出问题所建议的水平。事实上推导很容易在互联网上做笔记发现,例如有两种不同的推导大约两页的空间,在这里χk12k


谢谢,这很有意义。这是某种数学上的巧合/偶然事件,可以很好地将其除以期望值吗?还是有一个直观的统计解释为什么会是这种情况。
2014年

根据人与人之间的不同,有几种解释可能是直观的也可能不是直观的。例如,如果观察到的计数最初是独立的泊松变量,则的方差实际上将导致您除以(泊松也渐近是正常的)。如果再对总数求条件(如上),则会得到多项式。无论您是否以总和为条件(即,将其视为Poisson还是多项式),ML估计量都是相同的,因此该估计量的方差是相同的-(ctd)zEi
Glen_b -Reinstate Monica

(ctd)...结果,应除以,方差应完全正确。[ 虽然您仍然只有 df。]Eik1
Glen_b-恢复莫妮卡2014年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.