Karl Pearson是如何得出卡方统计量的?


14

培生(Pearson)是如何在1900年得出以下培生(Pearson)卡方统计量的?

K=(OijEij)2Eij
Kχ2

他是否考虑过卡方并设计度量(自下而上的方法),还是他设计了统计量,后来证明它遵循卡方分布(自上而下)?K

我想知道为什么他选择了这种特定形式,而不选择或,以及他为什么将平方除以分母。(OijEij)2|OijEij|



1
当然,可以使用任意数量的统计信息。您的替代方案非常好,尽管您必须为它们计算出抽样分布,这会根据单元格的数量而有所不同。这种形式的一个方便之处是它与其他分布具有某些关系,例如,它是k个平方标准正态随机变量之和的分布。
gung-恢复莫妮卡

Answers:


23

皮尔森(Pearson)1900年的论文没有版权,因此我们可以在线阅读。

您应该首先注意到本文是关于拟合检验的优缺点,而不是关于独立性或同质性的检验。

他着手处理多元正态变量,卡方是标准化正态变量的平方和。

您可以从p160-161的讨论中看到,他正在明确地讨论将测试应用于多项式分布式数据(我不认为他在任何地方都使用该术语)。他显然了解多项式的近似多元正态性(当然,他知道边距近似为正态-这是一个非常古老的结果-并且知道均值,方差和协方差,因为它们在本文中已作了陈述);我的猜测是,到1900年,大多数东西已经是旧帽子了。(请注意,卡方分布本身可以追溯到1870年代中期Helmert的工作。)

然后,在p163的底部,他得出卡方统计量作为“拟合优度的度量”(该统计量本身出现在多元正态近似的指数中)。

然后,他继续讨论如何评价的p值*,然后他给出了正确的上尾区超出43.87为0.000016。[但是,您应该记住,他当时不正确地了解如何调整自由度以进行参数估计,因此他论文中的某些示例使用了过高的df]χ122

*(请注意,既不存在Fisherian检验模型也不存在Neyman-Pearson检验范式,但是我们仍然清楚地看到他已经应用了p值的概念。)

您会注意到,他没有明确地写出类的术语。相反,他写道12等的预期计数和所观察到的数量,他用1等等。然后,他定义e = m - m '(下半部分p160),并为每个像元计算e 2 / m(请参阅等式(xv)p163和表的最后一列在p167的底部)...等价量,但用不同的表示法。(OiEi)2/Eim1m2m1e=mme2/m

目前了解卡方检验的大部分方法尚未到位,但另一方面,已经有很多方法(至少如果您知道要查找的内容)。在1920年代(及以后)发生了很多事情,这些改变了我们看待这些事情的方式。


至于为什么在多项式情况下除以,即使发生多项式中各个分量的方差小于E i的情况,当我们考虑协方差时,它也等于仅除以E i,为了简化。EiEiEi


在编辑中添加:

Plackett在1983年发表的论文提供了许多历史背景,并为该论文提供了一些指导。我强烈建议您看一下。看起来它是通过JStor在线免费提供的(如果您登录),因此您甚至不需要通过机构即可读取它。

Plackett,RL(1983),
“ Karl Pearson和Chi-Squared检验”,《
国际统计评论》
第1卷。51,No。1(Apr),第59-72页


1
我只是重新阅读了这篇文章,每次,我都会获得更多的见解。@Glen_b我要感谢您的出色回答,我以前应该这样做。如果我可能要问其他问题,在您关于E除法如何针对协方差进行调整的解释中,您能否对此进行详细说明或将我指向讨论这一点的资源?我可以直观地理解为什么需要“规范化”,但是我想用数学证明来支持我的直觉。
Alby 2015年

1
至于如何针对协方差进行调整,此答案对此进行了一些讨论,并且在两类(二项式情况)中有几行推导,显示了二项式方差与将两个贡献相除的关系。的成功和失败的卡方。看来您在追寻到底,但如果您是我,我不确定那是什么。你能改一下吗?Ei
Glen_b-恢复莫妮卡

1
Xi(因为 X i中只有一个X j可以 > 0。那么 Cov O iO j只是这些协方差项的和。(实际上,我们可以写下整个(方差-)协方差抱歉,这有点简短,但是在该链接的答案的底部是与更多链接的链接Cov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)
Glen_b -Reinstate Monica 2015年

感谢您的链接@Glen_b。看完帖子后,现在更加清晰了!我天真地认为分母可以根据每个单元的初始差异进行调整,因此可以使用术语“规范化”,但是阅读您的文章后,我意识到我完全没有用。
Alby

不幸的是,“规范化”一词在统计上至少具有三种相关的含义。未经修饰,我通常只用它来表示“标准化为均值0和标准差1”,而其他人则用它来表示“标准化”,即根据某种规范对向量进行标准化,甚至转化为近似正态性。由于这里是个小虫,我现在应该知道避免它。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.