当大时比较嵌套的二进制logistic回归模型


10

为了更好地问我的问题,我已经提供了一些来自一个16级模型(输出fit)和17变量模型(fit2)以下(在这些模型中的所有预测变量是连续的,在这些模型之间的唯一区别在于fit不包含变量17(var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

我使用了Frank Harrell的rms软件包来构建这些lrm模型。如您所见,这些模型在歧视指数等级歧视之间似乎差别不大指标 ; 但是,使用lrtest(fit,fit2),我得到了以下结果:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

因此,我们将拒绝这种似然比检验的原假设。但是,我认为这可能是由于样本量较大(n = 102849)所致,因为这些模型的执行方式相似。此外,我感兴趣的是找到一种在n大时正式比较嵌套二进制logistic回归模型的更好方法。

我非常感谢您提供的反馈,R脚本或文档,它们可以指导我在比较这些类型的嵌套模型方面朝着正确的方向发展!谢谢!


删除变量17的目的是什么?
Michael M

这是一个玩具的例子。但是,通常会要求我使用8到12个变量构建模型,而删除对模型无用的变量是我的主要兴趣。变量17似乎对模型整体而言意义不大(就可预测性而言),但是似然比检验告诉我们两个模型之间存在显着差异(可能是由于n较大,而不是这些模型中的实际差异)两种模式)。因此,我希望找到一种比较这两种模型的方法(找到一种方法,该方法并未表明这两种模型之间的差异)
Matt Reichenbach 2013年

(1)不确定我是否完全了解您的需求。但是在医学上,使用歧视(如c统计量)的问题已得到充分证实,即使添加显着变量,c静态值也不会改变,并且导致了重新分类指数的发展(circ.ahajournals.org/content/121/15/ 1768.full)(2)AIC / BIC是否相似?许多可变信息获取标准可能比判别标准更有用。
查尔斯(Charles)

1
我认为您的第一段有错字。据说这fit2是一个17变量模型,但它也是省略的模型V17。您可能要编辑此内容。
tomka

1
@tomka,根据您的更正,我在上面的示例中更改fit2fit。谢谢!
Matt Reichenbach

Answers:


6

(1)关于为什么人们更喜欢完整模型而不是受限/简约模型,有大量文献。我的理解是偏爱简约模型的几个理由。但是,较大的模型对于许多临床应用可能并不可行。

(2)据我所知,歧视/歧视指标并未(不应)用作模型/变量选择参数。它们并非旨在用于这种用途,因此可能没有太多关于为什么不应该将它们用于模型构建的文献。

(3)简约模型可能具有尚不明显的局限性。他们可能没有比较大的模型更好地进行校准,可能会降低外部/内部有效性。

(4)在评估预测未来风险或将个人分为风险类别的模型时,c统计量可能不是最佳的。在这种情况下,校准对于准确评估风险同样重要。例如,比值比为3的生物标志物对统计学的影响可能很小,但是水平升高可能会使单个患者的10年心血管风险从8%变为24%

Cook NR;医学文献中ROC曲线的使用和滥用。循环。115 2007:928-935。

(5)已知AUC / c统计量/歧视对重要的预测变量不敏感。上面的Cook参考文献中对此进行了讨论,并讨论了净重分类指数发展的动力。在库克上面也有讨论。

(6)如果使用标准变量选择方法,则较大的数据集仍可能导致模型超出预期。在逐步选择过程中,通常使用p值截止值为0.05。但是,此值没有内在的含义,这意味着您应该选择此值。对于较小的数据集,较大的p值(0.2)可能更合适,在较大的数据集中,较小的p值可能是合适的(出于这个原因,GUSTO I数据集使用0.01)。

(7)虽然AIC通常用于模型选择,并且得到文献的更好支持,但BIC可能是较大数据集中的有效替代方法。对于BIC模型选择,卡方必须超过log(n),因此将在较大的数据集中产生较小的模型。(锦葵可能具有相似的特性)

(8)但是,如果您只希望最多包含10个或12个变量,则更简单的解决方案是类似bestglmleapspackage,只要您设置要考虑的最大变量数即可。

(9)如果您只想进行测试以使两个模型看起来相同,而又不太担心细节,则可以比较两个模型的AUC。有些软件包甚至会为您提供p值进行比较。似乎不建议。

Ambler G(2002)简化预后模型:基于临床数据
Cook NR 的模拟研究。医学文献中ROC曲线的使用和滥用。循环。115 2007:928-935。
盖尔MH,菲佛RM;关于评估绝对风险模型的标准。生物稳定剂。6 2005:227-239。

(10)一旦建立了模型,c统计量/抽取指数可能不是比较模型的最佳方法,并且存在有据可查的局限性。比较也应该至少包括校准,重新分类指数。

Steyerber(2010)评估预测模型的性能:一些传统和新颖措施的框架

(11)超越上述范围并使用决策分析方法可能是一个好主意。

威格士AJ,埃尔金EB。决策曲线分析:一种评估预测模型的新颖方法。Med Decis制作。2006; 26:565-74。
Baker SG,Cook NR,Vickers A,Kramer BS。使用相对效用曲线评估风险预测。JR Stat Soc A.2009; 172:729-48。
Van Calster B,Vickers AJ,Pencina MJ,Baker SG,Timmerman D和Steyerberg EW。标记和风险预测模型的评估:NRI与决策分析措施之间的关系概述。Med Decis制作。2013; 33:490-501

---更新---我发现维克斯的文章最有趣。但是,尽管有许多社论,但这仍未被广泛接受。因此可能没有太多实际用途。Cook和Steyerberg的文章更为实用。

没有人喜欢逐步选择。我当然不会为此提倡。我可能会强调,大多数对逐步评估的批评都假设EPV <50,并在完整或预先指定的模型与简化模型之间进行选择。如果EPV> 50,并且承诺减少模型,则成本效益分析可能会有所不同。

比较c统计量背后的弱点在于,它们可能没有什么不同,我似乎还记得这项测试的功能不足。但是现在我找不到参考,因此可能与之相去甚远。


(1)我知道最好使用完整模型,但我有超过1k的var可供选择,由于行业特定的要求,我需要构建这些较小的模型。(2)有道理!(3)同意!(4)正确(5)有趣
Matt Reichenbach 2013年

(6)同意;但是,分步程序本身还是很成问题的,并且p值截止值越低,无论样本大小如何,这些类型的模型都将变得更加有偏差。(7)“对于BIC模型选择,卡方必须超过log(n)”,这似乎非常有用。谢谢!(8)bestglmleaps程序包在计算上非常昂贵,并且要花几天的时间才能处理与我合作的数据集,但是感谢您的潜在想法。
马特·赖兴巴赫2013年

(9)即使仅由于样本量大,模型几乎完全相同,这些p值仍然很重要。(10)我需要研究更多校准和重分类指数,谢谢!(11)我对阅读这些文章非常感兴趣,您是否建议我从维克斯入手?谢谢!
马特·赖兴巴赫

5

一种选择是对两个模型都使用伪R平方测量。伪R平方的巨大差异表明,省略V17会大大降低模型的拟合度。

有不同种类的伪R平方可用。可以在此处找到概述,例如:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

流行的度量是Nagelkerke R平方。它在0到1之间变化,并且可以小心地从简单的线性回归模型像R平方一样解释。它基于完整模型与仅拦截模型的估计似然比的转换比率。

您可以分别针对fit和估计它fit2,然后比较相对大小以得到有关您的问题的指示。Nagelkerke R平方显着较高,fit这表明fit2通过省略V17 会失去很多预测能力。

lrmstats值提供Nagelkerke的R平方。因此,给予fit$stats应该给您一个估计。另请参阅?lrm


我熟悉Nagelkerke的R平方;但是,我的问题在于“ Nagelkerke R-Square的实质性提高fit”是什么?在上面的示例中,相差0.001,因为对于fitfit2,Nagelkerke的R平方分别为0.173和0.174 。您对什么是“ Nagelkerke R-Square高得多”有什么参考吗?谢谢!
马特·赖兴巴赫2013年

@马特:我认为没有关于纳格尔克(Nagelkerke)R²或其他伪R²量度的通用准则。但是,请注意,这是通过将协变量包括在仅截距模型中来对“可能性降低”进行的一种转换度量,这使其类似于线性回归中标准R²所指示的“解释方差”。从这个意义上讲,我将.173 / .174的差异解释为很小。会有更大的区别。桥梁 但是,我建议估计其他伪R²度量,例如McFadden或Cox / Snell,以检查此结论的可靠性。
tomka 2013年

我同意差异很小,但我希望能找到一个引用说明什么是“微小的”差异。我非常感谢您的想法。再次感谢!
马特·赖兴巴赫2013年

1
没问题!抱歉,没有尽快支持您!如果我找到关于pseduo R平方的“小”差异的答案,我将再次发布!谢谢!
马特·赖兴巴赫

-1

我刚刚读到这个。正确的方法是使用R的glm的finalmodel输出并查找“ Residual deviance:”,并得出两个模型之间的差值,并在卡方检验中使用此值,使用df等于丢弃的预测项的#。那就是你的p值。

应用回归建模伊恩·帕尔多(Iaian Pardoe)第2版,2012年,第270页

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.