让我们处理最简单的情况以尝试提供最大的直觉。令为来自具有k个结果的离散分布的iid样本。让π 1,... ,π ķ是每个特定结果的概率。我们感兴趣的卡方统计的(渐近)分布
X 2 = ķ Σ我= 1(小号在 π 我)2X1,X2,…,Xnkπ1,…,πk
这里 ñ π 我是计数的预期数量我个结果。
X2=∑i=1k(Si−nπi)2nπi.
nπii
启发式启发式
限定,使X2=Σ我Ù 2 我 =‖ü‖ 2 2其中û=(Û1,...,Úķ)。Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
由于是乙我Ñ(Ñ ,π 我),然后通过中心极限定理,
Ť 我 = û 我SiBin(n,πi)
因此,我们也有, ü 我ð → Ñ(0 ,1 - π 我)。
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
现在,如果在是(渐近)独立(他们都没有),那么我们可以说,
Σ 我牛逼2 我是渐近χ 2 ķ分布。但是,请注意,T k是(T 1,… ,T k − 1)的确定性函数,因此T i变量不可能独立。Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti
因此,我们必须以某种方式考虑它们之间的协方差。事实证明,“正确”的方式做到这一点是使用,而是和组件之间的协方差ü也改变从我们可能会想到的是渐进分布χ 2 ķ的是什么,事实上,一个χ 2 ķ - 1。UiUχ2kχ2k−1
有关此的一些详细信息。
更严格的处理
不难检查,实际上,
对我≠Ĵ。Cov(Ui,Uj)=−πiπj−−−−√i≠j
因此,协方差是
一个 = 我 - √U
其中 √
A=I−π−−√π−−√T,
。需要注意的是
阿是对称的,幂等的,即,
甲=甲2=阿Ť。所以,特别是,如果
ž=(Ž1,...,Žķ)具有独立同分布的标准正常组分,然后
甲ž〜Ñ(0,甲)。(
注意,在这种情况下,多元正态分布是
退化的。)
π−−√=(π1−−√,…,πk−−√)AA=A2=ATZ=(Z1,…,Zk)AZ∼N(0,A)
现在,根据多元中心极限定理,向量具有均值0和协方差A的渐近多元正态分布。U0A
因此,具有与A Z相同的渐近分布,因此,根据连续映射定理,X 2 = U T U的相同渐近
分布与Z T A T A Z = Z T A Z的分布相同。UAZX2=UTUZTATAZ=ZTAZ
但是,是对称的,幂等的,从而(一)具有正交的特征向量,(b)它的所有特征值都为0或1,和(c ^)1项是本征值的多重ř 一个Ñ ķ(甲)。这意味着,一个可被分解为甲 = Q d Q Ť其中Q是正交的,并且d是与一个对角矩阵[R 一个Ñ ķ(甲)在对角线上一和剩余对角线项为零。Arank(A)AA=QDQTQDrank(A)
因此,必须χ 2 ķ - 1分布式自
阿具有秩ķ - 1在我们的例子。ZTAZχ2k−1Ak−1
其他连接
卡方统计也与似然比统计密切相关。实际上,它是Rao得分统计量,可以视为似然比统计量的泰勒级数逼近。
参考文献
这是我根据经验得出的自己的发展,但显然受到古典文本的影响。寻找更多信息的好地方是
- GAF Seber和AJ Lee(2003),《线性回归分析》,第二版,Wiley。
- E. Lehmann和J. Romano(2005),《测试统计假设》,第三版,Springer。特别是第14.3节。
- DR Cox和DV Hinkley(1979),《理论统计》,查普曼和霍尔。