您引用的定理(通常的归约部分“由于估计参数而导致的自由度的通常降低”)是RA Fisher提倡的。在``从列联表中对卡方的解释和P的计算''(1922年)中,他主张使用规则,并在``回归公式的拟合优度''( (1922年),他主张通过在回归中使用参数的数量来减少自由度,以从数据中获得期望值。(有趣的是,自1900年引入卡氏检验以来,人们以错误的自由度滥用了卡方检验已有二十多年了)(R−1)∗(C−1)
您的情况属于第二类(回归),而不属于前一种(列联表),尽管两者是相关的,因为它们是对参数的线性限制。
因为您是根据观测值对期望值进行建模,并使用具有两个参数的模型来完成此操作,所以自由度的“通常”降低是2加1(因为O_i需要累加到总数,这是另一个线性限制,由于建模的期望值的“无效”,您最终实际上减少了两个,而不是三个。
卡方检验使用作为距离度量来表示结果与预期数据的接近程度。在卡方检验的许多版本中,此“距离”的分布与正态分布变量的偏差之和有关(仅在极限内正确,如果处理非正态分布数据,则为近似值) 。χ2
对于多元正态分布,密度函数与:χ2
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
与的协方差矩阵的行列式|Σ|x
和是马哈拉诺比斯如果,则该距离减小到欧几里得距离。χ2=(x−μ)TΣ−1(x−μ)Σ=I
皮尔森(Pearson)在其1900年的文章中认为级是球体,他可以转换为球面坐标以便积分诸如。这成为一个整体。χ2P(χ2>a)
正是这种几何表示形式,作为距离,也是密度函数中的一项,可以帮助理解当存在线性限制时自由度的降低。χ2
首先是2x2列联表的情况。您应该注意到,四个值不是四个独立的正态分布变量。相反,它们彼此相关并归结为一个变量。Oi−EiEi
让我们使用桌子
Oij=o11o21o12o22
那么如果期望值
Eij=e11e21e12e22
固定的话将以具有四个自由度的卡方分布进行分布,但是通常我们基于oij来估计eij,并且变化不像四个自变量。相反,我们得到o和e之间的所有差异都是相同的∑oij−eijeijeijoijoe
−−(o11−e11)(o22−e22)(o21−e21)(o12−e12)====o11−(o11+o12)(o11+o21)(o11+o12+o21+o22)
它们实际上是一个变量,而不是四个。几何学上,你可以看到本作不是集成在一个四维球,但在一行值。χ2
请注意,Hosmer-Lemeshow测试中的列联表不是这种列联表检验(它使用了不同的原假设!)。另请参见第2.1节“时的情况下和β _霍斯默和Lemshow的文章中已知的”。在这种情况下,您将获得2g-1自由度,而不是(R-1)(C-1)规则中的g-1自由度。(R-1)(C-1)规则特别适用于以下假设:行和列变量是独立的零假设(这对o i - e i产生了R + C-1约束β0β––oi−ei值)。所述霍斯默-Lemeshow测试涉及的假设的细胞根据logistic回归模型的基于概率填充在分布式假设A和的情况下,参数p + 1个参数在分配假设B的情况下fourp+1
其次是回归的情况。回归的行为类似于列联表的差异,并减小了变化的维数。这位一个很好的几何表示作为值ÿ 我可以被表示为模型项的总和β X 我和剩余(未误差)项ε 我。这些模型项和残差项分别表示彼此垂直的尺寸空间。那就是说剩余项ϵ io−eyiβxiϵiϵi不能取任何可能的价值!即,它们被模型上投影的部分所减少,更具体地说,模型中每个参数的维度都为1。
也许以下图像可以帮助一点
下面是400次从二项式分布的三(不相关)的变量。它们涉及到正常分布变量Ñ (μ = Ñ * p ,σ 2 = Ñ * p * (1 - p ))。在同一图像我们得出等值面为χ 2 = 1B(n=60,p=1/6,2/6,3/6)N(μ=n∗p,σ2=n∗p∗(1−p))χ2=1,2,6χ∫一种0Ë− 12χ2χd− 1dχχd− 1χ
下图可用于了解残差项中的尺寸减小。它用几何术语解释了最小二乘拟合法。
蓝色为测量值。红色代表模型所允许的。测量值通常不完全等于模型,并且存在一定偏差。您可以从几何角度将其视为从测量点到红色表面的距离。
米ü1个米ü2(1 ,1 ,1 )(0,1,2)
⎡⎣⎢x1x2x3⎤⎦⎥=a⎡⎣⎢111⎤⎦⎥+b⎡⎣⎢012⎤⎦⎥+⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
(1,1,1)(0,1,2)xϵ
因此,观察到的和(建模的)期望值之间的差异是垂直于模型向量的向量之和(并且该空间的总空间尺寸减去模型向量的数量)。
在我们的简单示例案例中。总尺寸为3。模型有2个尺寸。误差的维数为1(因此,无论您采用哪个蓝点,绿色箭头都将显示单个示例,误差项的比率始终相同,遵循单个矢量)。
χ2
我总是为我们以结尾而感到惊讶o−eeenp(1−p)