评估Hosmer-Lemeshow拟合优度的逻辑回归和解释

24

众所周知，有两种评估逻辑回归模型的方法，它们正在测试非常不同的事物

预测能力：

获取一个统计数据，该统计数据可衡量您可以基于自变量预测因变量的程度。众所周知的伪R ^ 2是McFadden（1974）和Cox and Snell（1989）。

拟合优度统计

该测试告诉您是否可以通过使模型更复杂来做得更好，实际上是在测试是否存在任何非线性或相互作用。

我在模型上实施了两个测试，
已经添加了二次和交互：

>summary(spec_q2)

Call:
glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
 I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
 family = binomial())

 Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.955431   8.838584   0.108   0.9139    
Top          0.311891   0.189793   1.643   0.1003    
Right       -1.015460   0.502736  -2.020   0.0434 *  
Left        -0.962143   0.431534  -2.230   0.0258 *  
Bottom       0.198631   0.157242   1.263   0.2065    
I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
Top:Right    0.012290   0.007540   1.630   0.1031    
Top:Bottom   0.004536   0.002880   1.575   0.1153    
Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 3350.3  on 2799  degrees of freedom
Residual deviance: 1984.6  on 2789  degrees of freedom
AIC: 2006.6

且预测功率如下所示，MaFadden为0.4004，并且应该取0.2〜0.4之间的值来表示模型非常合适（Louviere等（2000），Domenich和McFadden（1975））：

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925

以及拟合优度统计数据：

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

据我了解，GOF实际上正在测试以下零假设和替代假设：

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

由于我的模型增加了交互作用，因此非线性已经存在并且p值表明H0应该被拒绝，因此我得出的结论是我的模型确实需要交互作用，即非线性。希望我的解释是正确的，并感谢您提前提出任何建议，谢谢。

— 萨摩斯
source

1

又见stats.stackexchange.com/questions/169000/...和stats.stackexchange.com/questions/167483/...

2

最好看一下基础表，而不是HL测试的p值。以及在模型残差图上。这将显示问题所在。

— 概率

26

有几个问题要解决。

$R^2$ 本身无法衡量拟合优度；他们主要测量预测性歧视。拟合优度仅来自比较与来自更丰富模型的 $R^2$ $R^2$
Hosmer-Lemeshow测试是针对总体校准误差的，而不是针对任何特殊的缺乏拟合（例如二次效应）的测试。它没有适当考虑过度拟合，对于垃圾箱的选择和计算分位数的方法是任意的，并且通常功能过低。
由于这些原因，不再建议进行Hosmer-Lemeshow测试。Hosmer等人在R rms包residuals.lrm功能中实现了更好的df综合性拟合测试。
对于您的情况，可以通过联合测试（在“块”测试中）所有平方和交互项的贡献来评估拟合优度。
但是，我建议指定模型以使其更可能预先拟合（尤其是关于使用回归样条的松弛线性假设），并使用引导程序来估计过度拟合并获得经过过度拟合校正的高分辨率平滑校准曲线以检查绝对值准确性。这些是使用R rms包完成的。

最后一点，我更喜欢这样的哲学：模型是灵活的（无论如何受样本量的限制），并且我们更多地关注“适合”而不是“缺乏适合”。

— 弗兰克·哈雷尔
source

2

R^{2}

$R^2$

1 - R^{2}

$1 - R^{2}$

4

来自维基百科：

该测试评估观察到的事件发生率是否与模型总体子组中的预期事件发生率匹配。Hosmer-Lemeshow测试专门将子组标识为拟合风险值的十分位数。子组中预期和观察到的事件发生率相似的模型称为经过良好校准的模型。

其含义：在对模型的y进行模型评分后，您要交叉检查它是否分布在与实际事件发生率相似的10个十分位数上。

因此假设将是

$H_0$
$H_1$

因此，如果p值小于.05，则它们分布不均，您需要优化模型。

我希望这能回答您的一些查询。

— 拉尼什·库玛（Rajnish Kumar）
source

3

@FrankHarrell的回答很不合理，但是H–L测试的拥护者可以从该结果推断出，尽管您包含了二次项和某些^†二阶相互作用，但是该模型仍然显示出严重缺乏拟合度，也许一个更复杂的模型将是适当的。您正在测试的只是指定模型的拟合度，而不是较简单的一阶模型的拟合度。

†这不是完整的二阶模型-需要进行三个交互。

— Scortchi-恢复莫妮卡
source