我有SPSS
逻辑回归模型的输出。输出报告模型拟合的两个度量,Cox & Snell
和Nagelkerke
。
因此,根据经验,您会在模型适合时报告哪些度量?
或者,期刊中通常会报告哪些适合指数?
一些背景:回归试图从一些环境变量(例如,陡度,植被覆盖等)中预测鸟类的存在与否。不幸的是,这只鸟很少出现(35次击中468次未中),因此回归表现很差。Cox&Snell是.09,Nagelkerke是.23。
主题是环境科学或生态学。
我有SPSS
逻辑回归模型的输出。输出报告模型拟合的两个度量,Cox & Snell
和Nagelkerke
。
因此,根据经验,您会在模型适合时报告哪些度量?
或者,期刊中通常会报告哪些适合指数?
一些背景:回归试图从一些环境变量(例如,陡度,植被覆盖等)中预测鸟类的存在与否。不幸的是,这只鸟很少出现(35次击中468次未中),因此回归表现很差。Cox&Snell是.09,Nagelkerke是.23。
主题是环境科学或生态学。
Answers:
通常我根本不会报告。Hosmer和Lemeshow在其教科书《应用逻辑回归》(第二版)中解释了以下原因:
通常,[度量]基于拟合模型与[基本模型],无数据或仅拦截模型的预测值的各种比较,因此,不评估优劣-适合。我们认为,拟合的真实度量是严格基于拟合模型中观察值与预测值的比较的度量。
[在第 164.]
关于各种ML版本(即“伪 ”状态),他们提到它不“建议用于常规用途,因为它不那么直观直观地易于解释”,但他们认为有必要对其进行描述,因为软件包报告它。
他们以书面形式结束了这次讨论,
... 逻辑回归中的低值是常态,这在向习惯于看到线性回归值的受众群体报告其值时提出了一个问题。...因此,[通过参考本文中的运行示例进行争论]我们不建议例行发布值和拟合逻辑模型结果的结果。但是,它们在模型构建状态中作为评估竞争模型的统计信息可能会有所帮助。
[在第 167.]
我对某些大型逻辑模型(100k至300k记录,100-300个解释变量)的经验完全符合H&L的描述。我的数据可以实现相对较高的,最高可达0.40。这些对应的分类错误率在3%到15%之间(假阴性和假阳性是平衡的,已使用50%保留数据集进行了确认)。正如H&L所暗示的那样,我不得不花很多时间来使客户(一个熟悉的高级顾问本人)对失去兴趣,并让他专注于分析中的重要内容(分类错误)。费率)。我可以热烈建议在不参考情况下描述您的分析结果,这很可能会造成误导。
这两个指标都是关联强度的度量(即,对于LR测试而言,是否与结果相关联),可以用来量化预测能力或模型性能。单个预测变量可能会对结果产生重大影响,但对于预测单个响应可能不一定有用,因此需要整体评估模型性能(空模型)。如Srikant所说,Nagelkerke的最大值为1.0,因此很有用。这只是根据似然比计算得出的的规范化版本。- [R 2 - [R 2 LR = 1 - EXP ( - LR / Ñ ),与Cod和Snell最初提出的整体关联的Wald统计有关。其他预测能力的指标是Brier得分,C指数(一致性概率或ROC面积)或Somers'D,后两者提供了更好的预测歧视度量。
在逻辑回归中所做的唯一假设是线性和可加性(+独立性)。尽管已经提出了许多全球拟合优度测试(例如Hosmer&Lemeshow测试,但请参阅我对@onestop的评论),但它们通常缺乏功能。为了评估模型拟合度,最好依靠视觉标准(分层估计,非参数平滑),以帮助发现预测结果和观察到的结果(例如非线性或相互作用)之间的局部或全局偏离,这在Harrell RMS中进行了详细说明讲义。在相关主题(校准测试)上,Steyerberg(临床预测模型(2009年)指出了评估观察结果与预测概率之间一致性的相同方法:
校准与拟合优度有关,拟合优度与模型拟合给定数据集的能力有关。通常,没有单一的拟合优度测试可以对预测模型的各种缺乏拟合具有良好的抵抗力。缺乏拟合的例子是线性预测器和结果之间缺少非线性,相互作用或不适当的链接函数。拟合优度可以使用统计量进行测试 。(第274页)
他还建议在视觉上或通过所谓的Harrell E统计量依靠平滑观察到的结果与预测概率之间的绝对差。
可以在Harrell的书《回归建模策略》(第203-205、230-244、247-249页)中找到更多详细信息。有关最新讨论,另请参见
Steyerberg,EW,Vickers,AJ,Cook,NR,Gerds,T,Gonen,M,Obuchowski,N,Pencina,MJ和Kattan,MW(2010)。评估预测模型的性能,这是传统和新颖措施的框架。流行病学,21(1),128-138。
我本来以为任何用于逻辑回归的度量的主要问题是您要处理的模型具有已知的噪声值。这与标准线性回归不同,标准线性回归通常将噪声水平视为未知水平。因为我们可以将glm概率密度函数写为:
其中是已知函数,并且用于反向链接函数。如果我们将通常的GLM偏差残差定义为
其中是的维度。对于逻辑回归,我们有,这是已知的。因此,我们可以使用它来确定“可接受”或“合理”的确定残差水平。对于OLS回归,通常无法做到这一点(除非您事先具有有关噪声的信息)。即,我们期望每个偏差残差约为。太多,模型可能缺少重要的影响(拟合不足);太多,很可能有在模型中多余的或虚假的效果(过拟合)。(这也可能意味着模型规格不正确)。
现在,这意味着伪的问题在于,它没有考虑到二项式变化的水平是可预测的(前提是不质疑二项式误差结构)。因此,即使Nagelkerke的范围是到,它仍然不能正确缩放。另外,当您为带有身份链接和正常错误的“ GLM”安装不等于通常的时,我看不到为什么将它们称为伪。例如,正常误差的等效cox嗅觉R平方(使用REML方差估计)由下式给出:
这看起来确实很奇怪。
我认为更好的“拟合优度”度量是偏差残差的总和。这主要是因为我们有一个目标。
我发现Tue Tjur的简短论文“逻辑回归模型中的确定系数-一个新建议:歧视系数”(2009年, 美国统计学家)关于逻辑模型中确定系数的各种建议颇为启发。他在突出优点和缺点方面做得很好-当然提供了新的定义。非常推荐(尽管我自己不喜欢)。
我也要说“都不是”,所以我赞成胡布的回答。
除了批评R ^ 2之外,Hosmer&Lemeshow确实提出了另一种用于逻辑回归的拟合优度度量,该度量有时是有用的。这是基于通过按预测概率(或等效地,线性预测变量)排序将数据分为(例如)10个大小相等(或尽可能接近)的组,然后将观察到的阳性反应与预期的每组阳性反应进行比较并执行卡方检验。大多数统计软件包都实施了“ Hosmer-Lemeshow拟合优度检验”。
Design
软件包具有替代性的H&L 1 df测试功能。
我更喜欢Nagelkerke,因为当模型完全适合时此模型的拟合度将为1,从而使读者感觉到您的模型离完美拟合有多远。Cox&Shell对于完美的模型拟合没有达到1,因此解释0.09的值会比较困难。有关伪装RSquared的更多信息,请参见此 url,以了解各种类型的配合。
尽管有人反对使用伪R平方,但出于各种原因,有些人还是希望至少在某些时候继续使用它们。我从阅读中得出的结论是(对不起,目前我无法提供引用)是
此外,斯科特·梅纳德(Scott Menard)在《应用逻辑回归分析(Sage)》中提到的结果往往介于两者之间的公式是
[-2LL0 - (-2LL1)]/-2LL0.
在下表中将其表示为“ L”。