Hosmer-Lemeshow测试中的自由度


33

逻辑回归模型的Hosmer-Lemeshow检验(HLT)的拟合优度(GOF)的检验统计量定义如下:

然后将样本分为十分位数,每十分位数计算以下数量:d=10D1,D2,,Dd

  • O1d=iDdyi,即中观察到的阳性病例;Dd
  • O0d=iDd(1yi),即在观察到的否定案例;Dd
  • E1d=iDdπ^i,即,十分位数中阳性案例的估计数;Dd
  • E0d=iDd(1π^i),即,十分位数中否定情况的估计数量;Dd

其中是第个观测值的观测二进制结果,是该观测值的估计概率。yiiπ^i

然后将测试统计量定义为:

X2=h=01g=1d((OhgEhg)2Ehg)=g=1d(O1gngπ^gng(1π^g)π^g)2,

其中π^G是在等分的平均估计的概率G和让ñG是公司在等分的数量。

根据Hosmer-Lemeshow(请参阅此链接),此统计数据(在某些假设下)具有χ2分布,自由度为d-2

另一方面,如果我要定义一个具有d行(对应于十进制)和2列(对应于真/假二进制结果)的列联表,则该列联表的χ2测试的test-statistic 将所述一样的X2如上所定义的,但是,在列联表的情况下,这个测试统计量是χ2(d1)(21)=d1的自由度所以自由度多一个

如何解释自由度的这种差异?

编辑:阅读评论后的补充:

@whuber

他们说(参见Hosmer DW,Lemeshow S.(1980),多元逻辑回归模型的拟合优度检验。Communicationsin Statistics,A10,1043-1069),Moore和Spruill证明了一个定理,得出以下结论:如果(1)使用未分类数据的似然函数来估计参数,并且(2)2xg表中的频率取决于估计的参数,即单元是随机的而不是固定的,则在适当的规则性条件下, (1)和(2)下的拟合统计的优缺点是中心卡方,由于估计的参数加上加权卡方​​变量的总和,通常会降低自由度。

然后,如果我理解他们的论文,他们会尝试找到这个“校正项”的近似值,如果我理解得很好,那就是卡方随机变量的加权总和,他们会通过进行模拟来做到这一点,但是我必须承认我不完全理解他们在那说的话,因此是我的问题;为什么这些单元是随机的,这如何影响自由度?如果我固定单元格的边界,然后根据估计的分数对固定单元格中的观察结果进行分类,在这种情况下,尽管单元格的“内容”是随机的,但这些单元格不是随机的,这会有所不同吗?

@Frank Harell:难道您在下面的评论中提到的Hosmer-Lemeshow测试的“缺点”仅仅是卡方平方加权和的结果吗?


9
本书包含对该测试及其基础的详细描述。第145-149页已完全回答您的问题。确定测试中的自由度是一件微妙的事情,因为这些测试中的大多数都是近似值(首先是近似值),并且这些近似值仅在看似次要的技术条件适用时才是好的。有关所有这些的一些讨论,请参阅stats.stackexchange.com/a/17148。H&L采取了纯粹实用的方法:他们基于 DF 的建议基于“大量模拟”。 d - 2χ2d2
ub

4
由于(1)缺乏权力,(2)连续概率的合并,以及(3)合并选择和十分位数定义的任意性,现在认为该测试已过时。建议使用Hosmer-le Cessie 1 df测试或Spiegelhalter测试。例如,请参见R rmsresiduals.lrmval.prob功能。
Frank Harrell

2
@Frank Harell:(a)即使Hosmer-Lemeshow测试已过时,我认为了解的差异仍然很有趣,并且(b)您是否有参考资料表明Spiegelhalter测试的功能比Hosmer-Lemeshow测试?χ2

2
与原始问题相比,恕我直言,这些问题很小。
Frank Harrell

3
我认为详细信息会出现在本网站的其他地方。简而言之,(1)Hosmer表明测试是任意的-对精确计算十分十分敏感;(2)缺乏动力。通过绘制合并的校准曲线(而不是平滑的校准曲线)并注意跳跃,可以看到它基于不精确的数量。而且,它不会适当地惩罚极端过拟合的情况。
弗兰克·哈雷尔

Answers:


2

Hosmer DW,Lemeshow S.(1980),多元逻辑回归模型的拟合优度检验。统计通讯,A10,1043-1069 显示:

如果模型是数回归模型,并且通过最大似然估计参数,并且在估计的概率上定义了组,则认为渐近 (Hosmer,Lemeshow,1980,p.1052,定理2)。ģ X 2 χ 2g ^ - p - 1 + Σ p + 1 = 1 λ χ 2 1 pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(注意:必要条件没有在第1052页的定理2中明确指出,但是如果一个人认真地阅读了论文和证明,就会弹出这些条件)

第二个项于以下事实:分组基于估计的数量(即随机数量)(Hosmer,Lemeshow,1980,p。 1051)i=1p+1λiχi2(1)

通过模拟,他们表明第二项(在用于模拟的情况下)可以近似为 (Hosmer,Lemeshow,1980,p.1060)χ2(p1)

结合这两个事实,得出两个变量的总和,一个变量具有自由度,第二个变量具有 自由度或 ģ - p - 1个p - 1 X 2χ 2g ^ - p - 1 + p - 1 = g ^ - 2 χ2Gp1p1X2χ2(Gp1+p1=G2)

因此,问题的答案在于“加权卡方项”的出现,或者是使用估计的概率定义组的事实,而这些概率本身就是随机变量。

另请参见Hosmer Lemeshow(1980)论文-定理2


“因此,问题的答案在于'加权卡方项'的出现,以及使用估计的概率定义组的事实,而这些概率本身就是随机变量。” A)估计的概率使您获得p + 1 的额外减少,这与列联表的情况(其中仅估计g个项)有很大不同。B)加权卡方项作为校正出现,因为该估计不是似然估计或等效效率,并且这使得减少的效果小于(p + 1)。
Sextus Empiricus

@Martijn Weterings:如果我得出的结论是,您在此评论中所说的与您在回答中所说的不完全相同(不是完全不同),我是对的吗?您的评论是否导致df为的结论 ?G2

我的答案解释了与基于“ 该列联表的检验的检验统计量”的推理相比,自由度差异背后的直觉,并解释它们为何不同(对固定单元格进行案例估计)。它着重于“通常减少”,从中您可以得出df为G-3的结论。但是,不能满足“通常减少”的某些条件。由于这个原因(随机单元),您会得到更复杂的项,并使用加权卡方项作为更正,并且最终得到G-2。完全不同。χ2
Sextus Empiricus

@ Martijn Weterings,对不起,但我不能投票,因为我根本没有在您的答案中看到任何类似“随机细胞”的概念,您的意思是说您的照片很漂亮(我的意思是,它们非常好)解释关于“随机细胞”的一些知识,还是您在阅读我的回答后想到了这个概念?

不要后悔 我同意我的答案不是准确显示HL测试中的自由度的确切答案。对此感到抱歉。您所拥有的是Chernoff Lehman统计信息(还有随机单元格),它遵循分布。目前尚不清楚我在困扰着您什么部分,我希望您能对此有所建设。如果您希望所有这些都得到解释,那么您已经拥有相应的文章。我的答案只是解决了解释了列联表测试的主要区别。Σ ķ - 小号- 1 = 1 χ 21 i=1ks1χ2(1)+i=ksk1λiχi2(1)i=1ks1χ2(1)
Sextus Empiricus

2

您引用的定理(通常的归约部分“由于估计参数而导致的自由度的通常降低”)是RA Fisher提倡的。在``从列联表中对卡方的解释和P的计算''(1922年)中,他主张使用规则,并在``回归公式的拟合优度''( (1922年),他主张通过在回归中使用参数的数量来减少自由度,以从数据中获得期望值。(有趣的是,自1900年引入卡氏检验以来,人们以错误的自由度滥用了卡方检验已有二十多年了)(R1)(C1)

您的情况属于第二类(回归),而不属于前一种(列联表),尽管两者是相关的,因为它们是对参数的线性限制。

因为您是根据观测值对期望值进行建模,并使用具有两个参数的模型来完成此操作,所以自由度的“通常”降低是2加1(因为O_i需要累加到总数,这是另一个线性限制,由于建模的期望值的“无效”,您最终实际上减少了两个,而不是三个。


卡方检验使用作为距离度量来表示结果与预期数据的接近程度。在卡方检验的许多版本中,此“距离”的分布与正态分布变量的偏差之和有关(仅在极限内正确,如果处理非正态分布数据,则为近似值) 。χ2

对于多元正态分布,密度函数与:χ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

与的协方差矩阵的行列式|Σ|x

和是马哈拉诺比斯如果,则该距离减小到欧几里得距离。χ2=(xμ)TΣ1(xμ)Σ=I

皮尔森(Pearson)在其1900年的文章中认为级是球体,他可以转换为球面坐标以便积分诸如。这成为一个整体。χ2P(χ2>a)


正是这种几何表示形式,作为距离,也是密度函数中的一项,可以帮助理解当存在线性限制时自由度的降低。χ2

首先是2x2列联表的情况。您应该注意到,四个值不是四个独立的正态分布变量。相反,它们彼此相关并归结为一个变量。OiEiEi

让我们使用桌子

Oij=o11o12o21o22

那么如果期望值

Eij=e11e12e21e22

固定的话将以具有四个自由度的卡方分布进行分布,但是通常我们基于oij来估计eij,并且变化不像四个自变量。相反,我们得到oe之间的所有差异都是相同的oijeijeijeijoijoe

(o11e11)=(o22e22)=(o21e21)=(o12e12)=o11(o11+o12)(o11+o21)(o11+o12+o21+o22)

它们实际上是一个变量,而不是四个。几何学上,你可以看到本作不是集成在一个四维球,但在一行值。χ2

请注意,Hosmer-Lemeshow测试中的列联表不是这种列联表检验(它使用了不同的原假设!)。另请参见第2.1节“时的情况下β _霍斯默和Lemshow的文章中已知的”。在这种情况下,您将获得2g-1自由度,而不是(R-1)(C-1)规则中的g-1自由度。(R-1)(C-1)规则特别适用于以下假设:行和列变量是独立的零假设(这对o i - e i产生了R + C-1约束β0β_oiei值)。所述霍斯默-Lemeshow测试涉及的假设的细胞根据logistic回归模型的基于概率填充在分布式假设A和的情况下,参数p + 1个参数在分配假设B的情况下fourp+1

其次是回归的情况。回归的行为类似于列联表的差异,并减小了变化的维数。这位一个很好的几何表示作为值ÿ 可以被表示为模型项的总和β X 和剩余(未误差)项ε 。这些模型项和残差项分别表示彼此垂直的尺寸空间。那就是说剩余项ϵ ioeyiβxiϵiϵi不能取任何可能的价值!即,它们被模型上投影的部分所减少,更具体地说,模型中每个参数的维度都为1。


也许以下图像可以帮助一点

下面是400次从二项式分布的三(不相关)的变量。它们涉及到正常分布变量Ñ μ = Ñ * p σ 2 = Ñ * p * 1 - p 。在同一图像我们得出等值面为χ 2 = 1B(n=60,p=1/6,2/6,3/6)N(μ=np,σ2=np(1p))χ2=1,2,6χ0一种Ë-1个2χ2χd-1个dχχd-1个χ

chi ^ 2的图形表示

下图可用于了解残差项中的尺寸减小。它用几何术语解释了最小二乘拟合法。

蓝色为测量值。红色代表模型所允许的。测量值通常不完全等于模型,并且存在一定偏差。您可以从几何角度将其视为从测量点到红色表面的距离。

ü1个ü21个1个1个(0,1,2)

[x1x2x3]=a[111]+b[012]+[ϵ1ϵ2ϵ3]

(1,1,1)(0,1,2)xϵ

因此,观察到的和(建模的)期望值之间的差异是垂直于模型向量的向量之和(并且该空间的总空间尺寸减去模型向量的数量)。

在我们的简单示例案例中。总尺寸为3。模型有2个尺寸。误差的维数为1(因此,无论您采用哪个蓝点,绿色箭头都将显示单个示例,误差项的比率始终相同,遵循单个矢量)。

回归维数缩减的图形表示


χ2

我总是为我们以结尾而感到惊讶oeeenp(1p)


2
χ2p>1

enp(1p)

np(1p)

(d1p)β0β

....无论如何,我解释了为什么我们没有得到维d-1(如果在回归中放入两个参数,而应该期望像d-3),以及如何想象通过有效估算得出的维数减少。Moore-Spruill的文章由于效率低下而计算出了额外的项(可能会增加有效的自由度),而Hosmer-Lemeshow模拟表明d-2的效果最佳。理论上的工作远非直觉,而模拟远非精确。我的回答只是要求与d-1区别的解释。
Sextus Empiricus
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.