Answers:
我将直观地激发这一点,并指出两组特殊情况下的结果,假设您很高兴接受二项式的正态近似。
希望这足以让您很好地理解其工作原理。
您是在谈论契合度检验的卡方。假设有群组(您将其设为,但是有一个原因我倾向于将其称为)。
在用于这种情况的模型中,计数,是多项式。
令。计数以总和为条件(在某些相当罕见的情况下除外);每个类别都有一些预先确定的概率集合,总和为。
与二项式一样,多项式也有一个渐近正态近似值-实际上,如果仅考虑给定像元中的计数(是否为“此类别”),则该值为二项式。就像二项式一样,计数的方差(以及它们在多项式中的协方差)是和的函数;您不会单独估算方差。
即,如果期望计数足够大,则计数向量近似均值。但是,因为计数以为条件,所以分布是退化的(因为在计数中指定固定了剩余数,所以它存在于维度的超平面中)。方差-协方差矩阵具有对角项和角元素,并且由于简并性,其等级为。
结果,对于单个单元格,您可以编写。但是,这些项是相关的(负相关),因此,如果将这些的平方,则将不会具有分布(如果它们是独立的标准变量,则将是分布)。相反,我们可以潜在地从原始构造一组独立变量,这些变量是独立的并且仍然近似正态(渐近正态)。如果将它们的(标准)平方相加,我们将得到。有多种方法可以构建这样的 变量是显式的,但幸运的是,它有一个非常简洁的捷径,它避免了相当大的工作量,并且产生了与我们费尽周折相同的结果(统计量的相同值)。
为简单起见,请考虑两个类别的拟合优度(现在是二项式)。在第一个单元中的概率为,在第二个单元中的概率为。第一个单元格中有观测值,第二个单元格中有观测值。
观察到的第一个单元格计数渐近。我们可以将其标准化为。然后近似为(渐近)。
注意
。
但
。
因此这是我们从开始-渐近地是随机变量。两个单元格之间的依存关系是这样的:通过用而不是潜水,我们可以精确地补偿两者之间的依存关系,并获得原始的近似正态随机变量平方。
求和-同种总和依赖性是由当有两个以上的类别相同的方法照顾代替在所有项上,您可以精确地补偿依赖性的影响,并获得等于独立法线之和的和。
有多种方法可以证明统计量对于较大的具有渐近的分布(在某些本科统计课程中已经涵盖,并且可以在许多本科水平的教材中找到),但我不想带领您超出问题所建议的水平。事实上推导很容易在互联网上做笔记发现,例如有两种不同的推导大约两页的空间,在这里
@Glen_b用户引用的一页原稿http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf最终显示,该统计量可以重写为具有协方差等级的Hotelling =(参见等式9.6)。然后,我们可以调用SJ Sepanski(1994)的经典结果来获得其渐近分布,其自由度为的卡方。