培生(Pearson)是如何在1900年得出以下培生(Pearson)卡方统计量的?
他是否考虑过卡方并设计度量(自下而上的方法),还是他设计了统计量,后来证明它遵循卡方分布(自上而下)?
我想知道为什么他选择了这种特定形式,而不选择或,以及他为什么将平方除以分母。
培生(Pearson)是如何在1900年得出以下培生(Pearson)卡方统计量的?
他是否考虑过卡方并设计度量(自下而上的方法),还是他设计了统计量,后来证明它遵循卡方分布(自上而下)?
我想知道为什么他选择了这种特定形式,而不选择或,以及他为什么将平方除以分母。
Answers:
皮尔森(Pearson)1900年的论文没有版权,因此我们可以在线阅读。
您应该首先注意到本文是关于拟合检验的优缺点,而不是关于独立性或同质性的检验。
他着手处理多元正态变量,卡方是标准化正态变量的平方和。
您可以从p160-161的讨论中看到,他正在明确地讨论将测试应用于多项式分布式数据(我不认为他在任何地方都使用该术语)。他显然了解多项式的近似多元正态性(当然,他知道边距近似为正态-这是一个非常古老的结果-并且知道均值,方差和协方差,因为它们在本文中已作了陈述);我的猜测是,到1900年,大多数东西已经是旧帽子了。(请注意,卡方分布本身可以追溯到1870年代中期Helmert的工作。)
然后,在p163的底部,他得出卡方统计量作为“拟合优度的度量”(该统计量本身出现在多元正态近似的指数中)。
然后,他继续讨论如何评价的p值*,然后他给出了正确的上尾区超出43.87为0.000016。[但是,您应该记住,他当时不正确地了解如何调整自由度以进行参数估计,因此他论文中的某些示例使用了过高的df]
*(请注意,既不存在Fisherian检验模型也不存在Neyman-Pearson检验范式,但是我们仍然清楚地看到他已经应用了p值的概念。)
您会注意到,他没有明确地写出类的术语。相反,他写道米1,米2等的预期计数和所观察到的数量,他用米“ 1等等。然后,他定义e = m - m '(下半部分p160),并为每个像元计算e 2 / m(请参阅等式(xv)p163和表的最后一列在p167的底部)...等价量,但用不同的表示法。
目前了解卡方检验的大部分方法尚未到位,但另一方面,已经有很多方法(至少如果您知道要查找的内容)。在1920年代(及以后)发生了很多事情,这些改变了我们看待这些事情的方式。
至于为什么在多项式情况下除以,即使发生多项式中各个分量的方差小于E i的情况,当我们考虑协方差时,它也等于仅除以E i,为了简化。
在编辑中添加:
Plackett在1983年发表的论文提供了许多历史背景,并为该论文提供了一些指导。我强烈建议您看一下。看起来它是通过JStor在线免费提供的(如果您登录),因此您甚至不需要通过机构即可读取它。
Plackett,RL(1983),
“ Karl Pearson和Chi-Squared检验”,《
国际统计评论》,
第1卷。51,No。1(Apr),第59-72页