评估逻辑回归模型


13

这个问题源于我对如何确定逻辑模型是否足够好的实际困惑。我有一些模型在成对变量两年后使用成对的个体项目状态。结果成功(1)或不成功(0)。我有在形成双时测量的自变量。我的目的是测试我假设会影响配对成功的变量是否对成功产生影响,并控制其他潜在影响。在模型中,关注变量很重要。

使用中的glm()函数估算模型R。为了评估模型的质量,我做了几件事:默认情况下glm()为您提供residual devianceAICBIC。此外,我已经计算了模型的错误率并绘制了合并残差。

  • 完整模型的残差,AIC和BIC小于我估计的其他模型(嵌套在完整模型中),这使我认为该模型比其他模型“更好”。
  • 该模型的错误率相当低,恕我直言(如Gelman and Hill,2007,pp.99):
    error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)约为20%。

到目前为止,一切都很好。但是,当我绘制合并的残差(再次遵循Gelman和Hill的建议)时,大部分合并箱位于95%CI之外: 装箱残差图

该图使我认为该模型存在某些错误。那应该导致我放弃模型吗?我是否应该承认该模型是不完美的,但可以保留并解释感兴趣变量的影响?我开玩笑地依次排除了变量,并且进行了一些变换,但并没有真正改善合并残差图。

编辑:

  • 目前,该模型具有十几个预测变量和5种交互作用。
  • 这些对是相对“彼此”独立的,因为它们都是在短时间内形成的(但严格来说不是同时发生的),并且有很多项目(13k)和很多个人(19k) ),因此相当多的项目只能由一个人(大约2万对)加入。

2
做你正在做的事情所需的最低样本量的粗略估计是,你所需要的最低限度的事件数量还是非事件的数量超过15倍(12 + 5),假设你有17点候选人中的术语该模型。如果您使用进行了任何预测变量的筛选,那么所有的选择都将关闭。Y
Frank Harrell

1
根据您所说的,样本量似乎没有问题,因为我大约有200万对(其中约有20%成功)。
Antoine Vernet

Answers:


11

分类准确度(错误率)是不正确的评分规则(由伪造模型优化),任意,不连续且易于操作。在这种情况下不需要。

您没有说明有多少预测变量。与其评估模型的拟合度,不如尝试使模型变得拟合。一种折衷方法是假设交互作用不重要,并使用回归样条使连续预测变量为非线性。绘制估计的关系。rmsR中的软件包使这一切相对容易。有关更多信息,请参见http://biostat.mc.vanderbilt.edu/rms

您可能会详细说明“成对”以及您的观察是否独立。


如果我理解正确,那么您的建议是集中精力处理残差图,然后再做其他任何事情,直接使用该残差图,最终使用回归样条,对吗?我对问题进行了编辑,以说明有多少个预测变量,并且这些对是“相对”独立的。
Antoine Vernet

嗨,弗兰克。为什么说分类精度不好?这是因为在这里是根据衍生模型的相同数据进行评估的吗?
彼得·弗洛姆

2
χ2c

2
不,我的意思是通过使用受限三次样条(自然样条)将连续的预测变量扩展为多个项,从而允许连续预测变量在对数赔率范围内进行非线性运算。然后绘制估计的变换以了解每个预测变量的部分影响。
Frank Harrell

1
感谢您的输入,这真的很有帮助。深入研究数据,我意识到我遇到共线性问题(即使我没有很高的成对相关性)。
Antoine Vernet 2012年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.