麦克法登的伪R2解释


29

我有一个二进制逻辑回归模型,其麦克法登(McFadden)的伪R平方为0.192,有一个称为支付的因变量(1 =付款,0 =不付款)。这个伪R平方的解释是什么?

它是嵌套模型的相对比较(例如,一个6变量模型的McFadden伪R平方为0.192,而一个5变量模型(从上述6变量模型中删除一个变量后),该5变量模型具有伪R -平方为0.131。我们是否要在模型中保留第6个变量?)还是它是绝对数量(例如,给定模型的McFadden伪R平方为0.192,比任何现有的模型都具有McFadden伪模型更好) R平方为0.180(甚至对于非嵌套模型也是如此)?这些只是查看McFadden的伪R平方的可能方法;但是,我认为这两种观点相距遥远,因此我在这里提出此问题的原因。

我已经对该主题进行了大量研究,但仍无法找到我想要的答案,因为它能够解释McFadden的0.192伪R平方。任何见解和/或参考将不胜感激!在回答这个问题之前,我知道这不是描述逻辑回归模型的最佳方法,但是无论如何,我都希望对这一统计信息有更深入的了解!

Answers:


34

因此,我想总结一下我对McFadden的伪R2的了解是正确的答案。

我可以看到的关于McFadden的伪R2的开创性参考是:McFadden,D.(1974)“定性选择行为的有条件logit分析。” Pp。105-142,P。Zarembka(ed。),《计量经济学前沿》。学术出版社。http://eml.berkeley.edu/~mcfadden/travel.html 图5.5显示了RLS平方和来自OLS的传统R2度量之间的关系。我的解释是,较大的rho-squared(McFadden的伪R2)值要好于较小的值。

McFadden的伪R2在0.2-0.4之间的解释来自他撰写的一本书:Bahvioural Travel Modelling。大卫·亨舍尔(Peter Henher)和彼得·斯托珀(Peter Stopher)编辑 1979年。McFadden贡献了Ch。15“用于分析个人旅行行为的定量方法:最近的一些发展”。关于模型评估的讨论(在多项式logit模型的背景下)始于第306页,他在其中介绍了rho-squared(McFadden的伪R2)。McFadden指出:“虽然R2指数对于OLS经验丰富的计划者来说是一个更熟悉的概念,但对于ML估计而言,它的表现不如rho-squared度量。应该警告那些不熟悉rho-squared的人,其值倾向于比R2指数要低得多。例如,Rho-squared的值介于0.2到0.4之间,表示非常适合。

因此,基本上,rho-squared可以像R2一样解释,但是不要期望它会那么大。0.2-0.4的值表示(用McFadden的话)极好的模型拟合。


总结,克里斯。感谢你付出的努力!
马特·赖兴巴赫

13

McFadden的R平方定义为1-l_mod / l_null,其中l_mod是拟合模型的对数似然值,l_null是空模型的对数似然值,该模型仅包含截距作为预测变量(因此每个人被预测为相同的概率的“成功”)。

对于逻辑回归模型,对数似然值始终为负(因为来自每个观察值的似然贡献是介于0和1之间的概率)。如果您的模型没有真正比空模型更好地预测结果,则l_mod不会比l_null大很多,因此l_mod / l_null大约为1,McFadden的R平方接近于0(您的模型没有预测值) 。

相反,如果您的模型真的很不错,则结果为成功(1)的个体的拟合概率将接近1,反之亦然,结果为失败(0)的个体也是如此。在这种情况下,如果您进行似然计算,则模型中每个个体的似然贡献将接近于零,从而使l_mod接近于零,而McFadden的R平方接近于1,表明具有很好的预测能力。

关于什么可以被认为是好的价值,我个人的看法是,就像统计中的类似问题(例如,什么构成大的相关性?)一样,这永远不可能是一个确定的答案。去年我写了一篇博客文章关于McFadden的R平方在逻辑回归中,其中提供了一些进一步的模拟插图。


5

我对此主题进行了更集中的研究,发现对McFadden的伪R平方(也称为似然比指数)的解释尚不清楚。但是,它的范围可以从0到1,但计算得出的结果永远不会达到或超过1。

我发现非常有用的经验法则是McFadden的伪R平方介于0.2到0.4之间,表示模型拟合非常好。因此,至少以该指标衡量,上述带有麦克法登(McFadden)伪R平方值为0.192的模型可能不是一个糟糕的模型,但它也不是特别强大。

同样重要的是要注意,McFadden的伪R平方最好用于比较同一模型(即嵌套模型)的不同规格。参考前面的示例,6变量模型(McFadden的伪R平方= 0.192)比5变量模型(McFadden的伪R平方= 0.131)更适合数据,我使用对数似然比检验对5变量模型进行了正式测试。 ,这表明两个模型之间存在显着差异(p <0.001),因此对于给定的数据集,首选6变量模型。


1
您发现什么引用声称McFadden的R2在0.2-0.4之间是“非常好”的拟合?
克里斯(Chris)

顺便说一句...这是McFadden原始文章的参考和链接,他在其中定义了伪R2度量。McFadden,D.(1974)“定性选择行为的条件对数分析”。P. Zarembka(ed。)的第105-142页,计量经济学前沿。学术出版社。elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
克里斯-

1
感谢您的参考。看起来,麦克法登的许多作品都可以在他的伯克利网站上找到。以下是您上面引用的整本书的链接:elsa.berkeley.edu/users/mcfadden/travel.html所有章节均以 PDF形式显示。第5章提到Rho-square(McFadden的伪R2)。从第122页开始(请参见公式5.33和紧随其后的图表)。我没有提到0.2-0.4 =“ VG模型拟合”。我将继续寻找“经验法则”的开创性外观。谢谢你的帮助!
克里斯

1
没问题!感谢您的好奇心和彻底。确切的短语可以在lifesciencesite.com/lsj/life1002/…上找到,作者说:“使用McFadden的伪r平方(ρ2)进行拟合优度来拟合整个模型。McFadden建议ρ2应该采用介于0.2和0.4之间的值来表示该模型非常合适(Louviere等,2000)。”
马特·赖兴巴赫

4
我的机构有Louviere等人(2000)的电子副本。“规定的选择方法:分析和应用”。剑桥大学出版社。Lee(生命科学杂志)引用了{0.2-0.4} =“ VG fit”中的rho-squared引用。在Louviere的第55页(与公式3.32关联),我们看到以下报价:“ rho-squared值在0.2-0.4之间被认为是非常好的模型拟合的指标。Domenich和McFadden(1975)进行的模拟将该范围等效为线性函数为0.7到0.9”。
克里斯

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.