皮尔逊残差


16

在卡方检验拟合优度的背景下,有关皮尔逊残差的初学者问题:

除测试统计量外,R chisq.test函数还报告皮尔逊残差:

(obs - exp) / sqrt(exp)

我理解为什么查看观察值与期望值之间的原始差异并不能提供足够的信息,因为较小的样本将导致较小的差异。但是,我想更多地了解分母的作用:为什么要除以期望值的根?这是“标准化”残差吗?


6
分母用于解释原始残差的方差,这会使皮尔逊残差近似等于单位方差(还有其他方法可以实现这一点)。请注意,有一个stdres用于标准化残差的组件。
chl 2012年

@chl感谢您的快速回复。但是,在这种情况下,我不了解方差的概念。您是否知道我可以了解更多的资源?那么,我假设皮尔森的残差没有被“标准化”,因为它chisq.test也可以计算出stdres分量?
伊恩·迪林汉姆

3
关于分类数据分析的权威性参考文献可能是Alan Agresti撰写的Categorical Data Analysis。如果没有人提供更详细的答案,我将尝试将我的评论转换为正确的答案。
chl 2012年

感谢您的链接,@ chl。我可以使用该书,因此请尝试自己解决这一问题。
伊恩·迪林汉姆

Answers:


10

列联表的基础的标准统计模型是假设(无条件的总计数)单元格计数是独立的Poisson随机变量。因此,如果您有一个n×m列联表,则用作分析基础的统计模型将使每个像元计数具有无条件分布:

Xi,j ~ Pois(μi,j)

一旦为列联表加上了总单元数,或者行或列数,单元格计数的结果条件分布便变为多项式。在任何情况下,对于泊松分布,我们有E(Xi,j)=V(Xi,j)=μi,j,所以标准化细胞计数是:

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

因此,假设单元格计数具有(无条件)泊松分布,则您在查询的公式中看到的是标准化的单元格计数。

从这里开始测试数据中行和列变量的独立性是很常见的,在这种情况下,您可以使用测试统计量来查看上述值的平方和(等同于平方范数)标准化值的向量)。卡方检验基于对检验统计量的零分布的大样本近似值,为此类检验提供了p值。它通常适用于没有任何销售数量太少的情况。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.