为什么独立性测试使用卡方分布?


12

所述拟合优度测试使用以下统计: 在测试中,授予该该条件得到满足,一个用途 - 分布来计算p值,鉴于条件之一将相同尺寸的代表性样品中观察这样的值。χ 2 0 = Ñ Σ= 1直径: - ë 2χ2 χ2ħ0

χ02=i=1n(OiEi)2Ei
χ2H0

但是,为了使统计遵循(具有个自由度),必须为: 用于独立的标准普通(Wikipedia)。测试的条件如下(同样来自Wikipedia): χ 2 ñ - 1 ñ Σ= 1直径: - ë 2χ02χ2n1 Zi

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. 人口样本代表
  2. 大样本量
  3. 预期细胞数足够大
  4. 每个类别之间的独立性

从条件(1,2)可以看出,我们满足了从样本到总体的推断条件。(3)似乎是一个必要的假设,因为分母中的离散计数不会导致每个的近连续分布,并且如果它不够大,则存在可以用Yates校正的误差校正 -这似乎是由于以下事实:离散分布基本上是“泛滥”的连续分布,因此每个分布的偏移都可以对此进行校正。ž EiZi1/2

(4)的必要性似乎稍后会派上用场,但我不知道如何。

起初,我认为对于使统计信息与分布匹配是必要的。这使我得出一个令人质疑的假设,即,这确实是错误的。实际上,从等式两边的维数从到可以看出,事实并非如此。Zi=OiEiEiOiEiN(0,Ei)nn1

由于whuber的解释,很明显不必等于每个项,因为对于功能独立的标准正态随机变量,(注意总的减少)。ZiOiEiEiχ02=i=1n1Zi2Zi

那么,我的问题是如何遵循分布?项中的每一个的什么样的组合会导致平方标准法线?显然,这需要使用CLT(这很有意义),但是如何?换句话说,每个等于(或近似等于)是多少?χ02χ2 Z 2 i Zi(OiEi)2EiZi2Zi


1
我很好奇您在哪里读到有人假设您说的最后()。这不是必须的:统计量可以具有分布(至少非常接近),而这些标准化残差中的任何一个都不具有正态分布。您似乎想问的问题是,这些假设如何证明将统计信息引用分布合理的就他们自己而言,他们没有。有关可能出问题的讨论,请参阅stats.stackexchange.com/a/17148上的我的文章。OiEiN(0,Ei)χ2χ2χ2χ2
ub

1
从两个平方和的相等性中,您不能得出平方根逐项相等的结论!因为只有数字就是这种情况,所以随机变量也肯定是这种情况。
whuber

1
为了使这个具体,假设被独立地与分布式具有自由度的分布和但对所有。然后,尽管都不正常,但是具有分布。(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
whuber

1
如果用“平方标准法线”表示“独立平方标准法线的总和”,那么我认为这就是您真正想在一开始就提出的问题:-)。最后,大多数情况的分析确实确实引用了中央极限定理来证明渐近标准化残差是标准正态的(但不是很独立,这就是为什么自由度为而不是)。n1n
whuber

1
我所期望的+1将很快成为一个很好的问题。第一个问题是独立性测试不使用要求保护的统计信息。开始时给出的统计数据是一维的(类别之和),而独立性的检验需要多个变量。请进行编辑以使测试名称与统计信息相对应。n
Glen_b-恢复莫妮卡2014年

Answers:


6

关于泊松分布。如果是具有均值泊松,则的方差也是。这意味着是类似实体。根据CLT,随着均值变大,泊松趋于正态,这就是卡方的出现。是的,这是一个渐近检验。λ X λ X - λ 2XλXλ ž2

(Xλ)2λ
z2

自由度来自科克伦定理。基本上,Cochran解释了如何在得分进行线性变换的情况下变换卡方(或保持不变)。z2

izi2=ZIZ

以矩阵表示法。如果不是计算通常的平方和,而是为某个矩阵Q 计算,那么您仍然会获得一个具有卡方分布的量,但是自由度现在是的等级。矩阵Q上有更多条件,但这是要点。Q

ZQZ
Q

如果您使用某种矩阵符号,则可以将为二次形式。Cochran假定原始正态变量是独立的,这就是为什么计数表的列也必须独立的原因。

i(ziz¯)2

抱歉,但是您肯定在“如果您不愿意,您...”上

@ VF1,我进行了更改,希望更清楚。Cochrane定理是您的问题的答案,即当其中包含法线的平方和具有卡方分布时。
Placidia 2014年

1
好,我来看一下。不过,如果其他人有话要补充,我将保留这个问题。
VF1

1
通常,样本大小是固定的。这意味着任何条目都不可能遵循泊松分布。因此,对Poisson分布的吸引力似乎只是另一个近似值-似乎使我们离开了起点。
ub

1

根据教科书“具有随机化和模拟功能的统计入门”,第3.3.2节(教科书可在OpenIntro免费获得)中,测试统计量正试图累积观测值与预期值的偏差。偏差确实是通过术语表达的χ2

Zi=OiEiEi

它实际上源自。

OiEi(StandardErrorOfTheObserved)

教科书接着说最好由估算,因此该术语变为。教科书实际上并没有解释为什么这种替代是可以接受的,我也想找出答案。(StandardErrorOfTheObserved)EiZi=OiEiEi

无论如何,您可以创建表单的测试统计信息

Z=|Z1|+|Z2|+|Z3|+...

但是最好对所有项求平方,因为您会立即获得正值,并且平方后更高的值会更加突出。因此您得到以下信息:

χ2=Z12+Z22+Z32+...

但是我不知道为什么这个总和应该遵循分布,或者与分布(标准正态自变量的平方和)的定义有什么关系。χ 2χ2χ2

编辑:我仍在学习统计信息,但我仍然不认为我正确理解了测试。我希望其他人也能启发我。χ2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.