Logistic回归中的拟合优度检验；我们要测试哪个“合适”？

我指的是这个问题及其答案：如何比较通过Logistic回归开发的模型的（概率）预测能力？@Clark Chong发表，@ Frank Harrell回答/评论。并在Hosmer-Lemeshow测试和评论中质疑的自由度 $\chi^2$ 。

我已经阅读了DW Hosmer，T. Hosmer，S. Le Cessie，S. Lemeshow的论文，“ Logistic回归模型的拟合优度检验比较”，《医学统计》，第1卷。16，965-980（1997）。

阅读后，我感到困惑，因为我提到的问题明确要求“（概率）预测能力”，我认为这与上述论文的拟合优度检验旨在：

如我们大多数人所知，逻辑回归假设解释变量和成功概率之间呈S形联系，S形的函数形式为

$P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}}$

在不假装Hosmer-Lemeshow检验没有缺点的情况下，我认为我们必须区分（a）“（概率）预测能力 ”和（b）“ 拟合优度 ”的检验。

前者的目标是检验概率是否得到了很好的预测，而拟合优度检验则检验了上面的S形函数是否为“正确”函数。更正式地：

“概率预测能力测试”的检验具有，表明模型很好地预测了成功概率； $H_0$
而对于拟合优度测试，（参见Hosmer等人）认为上述S形功能形式是正确的。Hosmer等。进行仿真，在仿真中他们发现有能力检测到两种与零值的偏差，即链接函数错误或分母中的指数不是线性的。 $H_0$

显然，如果上述函数具有“正确”的函数形式（因此，如果测试得出结论，我们可以接受作为拟合优度检验），则预测的概率将很好，... $H_0$

第一句话

...但是，接受的结论很微弱，如我们未能否定原假设时该怎么办？。 $H_0$

第一个问题

我最重要的问题/评论是，如果拟合优度被拒绝，则测试的结论是功能形式不是“正确的”形式，但是，这暗示着概率是预测不好？ $H_0$

第二个问题

此外，我想指出Hosmer等人的结论。al; （我从摘要中引用）：

``当正确的模型具有二次项但仅包含线性项的模型已拟合时，对测试性能的检查表明，皮尔逊卡方，未加权平方和，Hosmer-Lemeshow十分位数风险，平滑的残差平方和和Stukel得分测试，当样本量为100时，具有超过50％的功效来检测线性的适度偏离，对于大小为500的样本，这些相同替代品的功效为90％以上当正确的模型具有二分和连续协变量之间的相互作用，但只有连续协变量模型适合时，所有检验均无功效。对于大小为100的样本，检测到错误指定链接的能力很差。对于大小为500的样本，Stukel' s得分测试的功效最佳，但检测不对称链接功能的结果仅超过50％。未加权平方和检验用于检测指定不正确的链接函数的能力比Stukel的分数检验要小''

我可以由此得出结论，哪个测试具有更大的功效，或者说Hosmer–Lemeshow的功效更低（检测这些特定异常）？

第二句话

Hosmer等人的论文。等我在上文中提到过，计算（模拟）检测特定异常的功率（仅在指定情况下才能计算功率）。我认为这并不意味着可以将这些结果推广到“所有可能的替代方案 ”？ $H_1$ $H_1$

— 社区
source

有时在某种意义上使用“拟合优度”，这与明显的模型错误指定“缺乏拟合”相反。有时从另一种意义上讲，是模型的预测性能-预测与观测值的匹配程度。Hosmer-Lemeshow检验从第一方面讲是适合性的测试，尽管缺乏适合的证据表明预测性能（第二方面是GoF，由Nagelkerke的或Brier得分衡量），但您除非您尝试进行特定的改进，否则在如何进行改进或提高多少方面没有一个更明智的选择（通常通过包括交互作用项，或表示连续预测变量的样条或多项式基础以允许与logit形成曲线关系；有时通过更改链接）。 $R^2$

拟合优度测试旨在针对各种替代方案具有合理的功效，而不是针对特定替代方案具有高功效；因此，人们比较不同测试的功效时，往往会采取务实的方法，选择一些潜在用户特别感兴趣的替代方法（例如，参见经常引用的Stephens（1974），“ EDF统计数据的拟合优度＆一些比较”，JASA，69，347）。您无法得出结论，对于所有可能的选择，一个测试比另一个测试更强大，因为它针对某些测试更强大。

— Scortchi-恢复莫妮卡
source

在某些情况下，可以证明测试“均匀地更强大”，这意味着它对所有可能的选择都更强大（cfr Karlin / Rubin定理）。但您说对了，这只是在特殊情况下，而且在Hosmer-Lemeshow测试环境中当然不是。

通常，恕我直言过于强调“贴合度”。更好的选择是使模型适合前面。这是通过使用回归样条放宽线性假设并包括有意义的交互作用来完成的。

— 弗兰克·哈雷尔

@fcoppens：好点！您只能通过将考虑中的替代方案严格限制在标量参数的值中来获得UMP测试，即使这样也不总是如此。即使考虑是否不允许进行一项测试-至少还有一项测试在所有替代方案中都具有更大的功能-对于通用GOF测试，也需要对替代方案进行过多限制。

— Scortchi-恢复莫妮卡