报告哪种逻辑度量用于逻辑回归(Cox&Snell或Nagelkerke)?


55

我有SPSS逻辑回归模型的输出。输出报告模型拟合的两个度量,Cox & SnellNagelkerke

因此,根据经验,您会在模型适合时报告哪些R²度量?

或者,期刊中通常会报告哪些适合指数?


一些背景:回归试图从一些环境变量(例如,陡度,植被覆盖等)中预测鸟类的存在与否。不幸的是,这只鸟很少出现(35次击中468次未中),因此回归表现很差。Cox&Snell是.09,Nagelkerke是.23。

主题是环境科学或生态学。


3
出色的UCLA统计帮助网站上有一个出色的页面,解释了各种伪及其相互之间的关系。R2
gung-恢复莫妮卡

这里有两个链接讨论了一种精确的非参数算法,该算法可以最大程度地提高逻辑回归模型的准确性。如果对数据使用此方法,则将其应用于样本时将提高逻辑回归模型的分类性能。示例1:onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/​​…示例2:epm.sagepub.com/content/54/1/73.abstract
2013年

Answers:


74

通常我根本不会报告。Hosmer和Lemeshow在其教科书《应用逻辑回归》(第二版)中解释了以下原因:R2

通常,[度量]基于拟合模型与[基本模型],无数据或仅拦截模型的预测值的各种比较,因此,不评估优劣-适合。我们认为,拟合的真实度量是严格基于拟合模型中观察值与预测值的比较的度量。R2

[在第 164.]

关于各种ML版本(即“伪 ”状态),他们提到它不“建议用于常规用途,因为它不那么直观直观地易于解释”,但他们认为有必要对其进行描述,因为软件包报告它。R2R2

他们以书面形式结束了这次讨论,

... 逻辑回归中的低值是常态,这在向习惯于看到线性回归值的受众群体报告其值时提出了一个问题。...因此,[通过参考本文中的运行示例进行争论]我们不建议例行发布值和拟合逻辑模型结果的结果。但是,它们在模型构建状态中作为评估竞争模型的统计信息可能会有所帮助。R2R2

[在第 167.]

我对某些大型逻辑模型(100k至300​​k记录,100-300个解释变量)的经验完全符合H&L的描述。我的数据可以实现相对较高的,最高可达0.40。这些对应的分类错误率在3%到15%之间(假阴性和假阳性是平衡的,已使用50%保留数据集进行了确认)。正如H&L所暗示的那样,我不得不花很多时间来使客户(一个熟悉的高级顾问本人)对失去兴趣,并让他专注于分析中的重要内容(分类错误)。费率)。我可以热烈建议在不参考情况下描述您的分析结果,这很可能会造成误导。R2R2R2R2


1
(+1)我最初是想扩大我的回答(那是在你的回答之后),但是肯定你的回答是自给自足的。
chl

感谢您的帮助,这对我目前正在从事的项目也很有帮助-完全有道理。
布兰登·贝特尔森

1
@whuber:我也倾向于倾向于正确的分类。费率,但我在教科书和网站上看到了许多参考资料,警告分析人员不要相信它们,并强调伪rsq尽管有其局限性,但却是一个更公平的指标。在我自己的分析中,我经常读到一些似乎可以证明的东西:在添加了给定的预测变量的情况下,伪rsq可能会增加(其他指标将表明从中受益),而正确的分类率却无法做到,并且那不应该相信后者 你有想过吗?
rolando2

4
@ rolando2是的,我有。这就提出了一个问题,即伪应该增加多少以证明变量的合理性。我怀疑您的“正确分类率”可能指的是采样率,这当然是有偏差的。如果是正确的话,那么您所阅读的内容只会比较两个劣等的统计数据。所述出样本的速率是更为有用比伪指示器。R 2R2R2
ub

1
+1。另外,要扩展答案的细微部分,您要提到分类错误率,它是复数形式,不应与准确性混淆。混淆矩阵可以产生许多不同类型的计算- 精度误报率精度等-我们关心的是哪种计算取决于应用程序。另外,您还对样本外进行了区分,这与交叉验证是有区别的,但有时会与之混淆。
韦恩

27

这两个指标都是关联强度的度量(即,对于LR测试而言,是否与结果相关联),可以用来量化预测能力或模型性能。单个预测变量可能会对结果产生重大影响,但对于预测单个响应可能不一定有用,因此需要整体评估模型性能(空模型)。如Srikant所说,Nagelkerke的最大值为1.0,因此很有用。这只是根据似然比计算得出的的规范化版本。- [R 2 - [R 2 LR = 1 - EXP - LR / Ñ R2R2RLR2=1exp(LR/n),与Cod和Snell最初提出的整体关联的Wald统计有关。其他预测能力的指标是Brier得分,C指数(一致性概率或ROC面积)或Somers'D,后两者提供了更好的预测歧视度量。

在逻辑回归中所做的唯一假设是线性和可加性(+独立性)。尽管已经提出了许多全球拟合优度测试(例如Hosmer&Lemeshow测试,但请参阅我对@onestop的评论),但它们通常缺乏功能。为了评估模型拟合度,最好依靠视觉标准(分层估计,非参数平滑),以帮助发现预测结果和观察到的结果(例如非线性或相互作用)之间的局部或全局偏离,这在Harrell RMS中进行了详细说明讲义。在相关主题(校准测试)上,Steyerberg(临床预测模型χ2(2009年)指出了评估观察结果与预测概率之间一致性的相同方法:

校准与拟合优度有关,拟合优度与模型拟合给定数据集的能力有关。通常,没有单一的拟合优度测试可以对预测模型的各种缺乏拟合具有良好的抵抗力。缺乏拟合的例子是线性预测器和结果之间缺少非线性,相互作用或不适当的链接函数。拟合优度可以使用统计量进行测试 。(第274页)χ2

他还建议在视觉上或通过所谓的Harrell E统计量依靠平滑观察到的结果与预测概率之间的绝对差。

可以在Harrell的书《回归建模策略》(第203-205、230-244、247-249页)中找到更多详细信息。有关最新讨论,另请参见

Steyerberg,EW,Vickers,AJ,Cook,NR,Gerds,T,Gonen,M,Obuchowski,N,Pencina,MJ和Kattan,MW(2010)。评估预测模型的性能,这是传统和新颖措施的框架流行病学21(1),128-138。


您能否详细说明“拟合优度”与关联强度或预测能力之间的区别?
安迪W 2010年

@Andy谢谢你指出这一点。之后,我意识到我的第一句话确实听起来不太好。我将更新我的答案,请让我知道是否可以。
chl 2010年

感谢您的更新,它确实阐明了区别。
安迪W

21

我本来以为任何用于逻辑回归的度量的主要问题是您要处理的模型具有已知的噪声值。这与标准线性回归不同,标准线性回归通常将噪声水平视为未知水平。因为我们可以将glm概率密度函数写为:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

其中是已知函数,并且用于反向链接函数。如果我们将通常的GLM偏差残差定义为b(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
我们有(通过似然比卡方,)χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

其中是的维度。对于逻辑回归,我们有,这是已知的。因此,我们可以使用它来确定“可接受”或“合理”的确定残差水平。对于OLS回归,通常无法做到这一点(除非您事先具有有关噪声的信息)。即,我们期望每个偏差残差约为。太多,模型可能缺少重要的影响(拟合不足);太多,很可能有在模型中多余的或虚假的效果(过拟合)。(这也可能意味着模型规格不正确)。pβϕ=11di21di21

现在,这意味着伪的问题在于,它没有考虑到二项式变化的水平是可预测的(前提是不质疑二项式误差结构)。因此,即使Nagelkerke的范围是到,它仍然不能正确缩放。另外,当您为带有身份链接和正常错误的“ GLM”安装不等于通常的时,我看不到为什么将它们称为伪。例如,正常误差的等效cox嗅觉R平方(使用REML方差估计)由下式给出:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

这看起来确实很奇怪。

我认为更好的“拟合优度”度量是偏差残差的总和。这主要是因为我们有一个目标。χ2


+1在Srikant回答后的评论中很好地说明了这些问题。
ub

假设二项式GLM将使用迭代加权的最小二乘拟合,那么为什么作为拟合质量的一种度量方法却不能报告GLM拟合的上一次IRLS迭代的加权最小二乘拟合的R2?如stats.stackexchange.com/questions/412580/…所示
Tom Wenseleers

16

我发现Tue Tjur的简短论文“逻辑回归模型中的确定系数-一个新建议:歧视系数”(2009年, 美国统计学家关于逻辑模型中确定系数的各种建议颇为启发。他在突出优点和缺点方面做得很好-当然提供了新的定义。非常推荐(尽管我自己不喜欢)。


1
感谢您指出那篇论文;我莫名其妙地错过了它(当我在一个大型逻辑回归项目中时就出现了!)。
Whuber

3
对于记录,此新定义为,它是响应的平均预测值减去响应的平均预测值。范围是到。Tjur并未否认Nagelkerke伪,但暗示它缺乏享有的“直觉上的吸引力” 。 1 0 0 1 - [R 2 dD=π^¯1π^¯01001R2D
ub

8

我也要说“都不是”,所以我赞成胡布的回答。

除了批评R ^ 2之外,Hosmer&Lemeshow确实提出了另一种用于逻辑回归的拟合优度度量,该度量有时是有用的。这是基于通过按预测概率(或等效地,线性预测变量)排序将数据分为(例如)10个大小相等(或尽可能接近)的组,然后将观察到的阳性反应与预期的每组阳性反应进行比较并执行卡方检验。大多数统计软件包都实施了“ Hosmer-Lemeshow拟合优度检验”。


3
原始的HL GoF检验不是很强大,因为它取决于将连续预测变量的规模分为任意数量的组。H&L建议考虑十分位数,但显然这取决于样本量,在某些情况下(例如IRT模型),您在规模的一端或两端通常只有很少的人,因此分界线分布不均。请参阅逻辑回归模型的拟合优度检验比较Stat。中 1997 16(9):965,j.mp/aV2W6Iχ2
chl

谢谢chi,这是一个有用的参考,尽管您的j.mp链接将我带到了BiblioInserm登录提示符。下面是一个基于DOI链接:dx.doi.org/10.1002/...
一站式

抱歉,提供的链接不正确...我似乎还记得弗兰克·哈雷尔(Frank Harrell)的Design软件包具有替代性的H&L 1 df测试功能。
chl 2010年

3

我更喜欢Nagelkerke,因为当模型完全适合时此模型的拟合度将为1,从而使读者感觉到您的模型离完美拟合有多远。Cox&Shell对于完美的模型拟合没有达到1,因此解释0.09的值会比较困难。有关伪装RSquared的更多信息,请参见此 url,以了解各种类型的配合。


8
迄今为止,在任何现实的逻辑回归中都无法实现“完美契合”,因此将其用作参考或标准似乎不公平。
ub

1
@whuber是的,但是您可以使用该标准来比较两个竞争模型的相对性能。你在你的答案及其影响低R ^ 2的点是好点,但如果你(例如,审稿要求它等)使用某种形式的R ^ 2然后Nagelkerke是优选的。

1
@Skridant是的,仍然是想在任何地方看到和Bonferroni校正的审稿人的问题……R2
chl

@Srikant,@chl:对这个线程的愤世嫉俗的阅读会建议您在所有这些软件报告中仅选择最大的R ^ 2 ;-)。
ub

2
@chl当然有必要向评论者/客户提供反馈,但是有时我们也必须务实。如果读者没有将低R ^ 2误解为缺乏足够的模型性能,那么@whuber提出的问题将在某种程度上得到缓解。

3

尽管有人反对使用伪R平方,但出于各种原因,有些人还是希望至少在某些时候继续使用它们。我从阅读中得出的结论是(对不起,目前我无法提供引用)是

  • 如果是C&S和Nag。低于.5,C&S将是更好的衡量标准;
    如果它们都在0.5以上,那就是Nag。将; 并且
    如果它们能够跨过3.5,踢。

此外,斯科特·梅纳德(Scott Menard)在《应用逻辑回归分析(Sage)》中提到的结果往往介于两者之间的公式是

[-2LL0 - (-2LL1)]/-2LL0.

在下表中将其表示为“ L”。

在此处输入图片说明


该图片显示了什么(水平轴代表什么)?另外,最后一个公式(看起来像是按比例的似然比统计量)与Nagelkerke到底有何不同?R2
chl

分析编号:我尝试使用不同的数据集进行各种分析。暂不使用Nagelkerke公式,但我敢打赌它很容易获得。
rolando2

保罗艾里覆盖Nagelkerke式,这是一种向上调整的Cox&斯内尔式,在statisticalhorizo​​ns.com/2013/02。在阅读了该博客之后,通常是在大部分讨论之后的2-3年中,我变得更加确信Cox&Snell的低估了解释方差,并且我最好对C&S和Nagelkerke结果取平均值。
rolando2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.