多项式Lo​​gistic回归与一对一二值Logistic回归


36

可以说,我们有一个因变量,其类别和自变量集很少。 Y

相对于二元logistic回归集(即one-vs-rest方案),多项logistic回归有什么优势?通过组的二元逻辑回归我的意思是为每个类别我们建立单独的二元逻辑回归模型与目标= 1时Ŷ = ÿ ,否则为0。yiYY=yi


3
在数学上,多项式logit模型是一组二进制logit模型,所有模型均与基本替代模型进行了比较。但是,由于您要折叠通用参数并可能合并其他一些参数,因此MNL总是至少具有相同的效率(可能更高)。我认为没有理由使用一系列二项式模型。
gregmacfarlane

2
@gmacfarlane:我曾尝试模拟MNL优于一系列二进制logistic回归的数据,但平均而言,每次质量都是相同的。我正在比较提升图,并在几次模拟的结果取平均后,它们看起来几乎一样。也许您有一个想法如何生成数据,以便MNL击败二进制logistic回归?尽管MNL具有很大的优势,但其得分可以解释为概率。
Tomek Tarczynski

多项式Lo​​gistic回归是二进制Logit回归的扩展。当研究的因变量为3或更高时使用它,而研究的因变量为2时使用二进制对数。

读者:我建议从@julieth的答案开始,然后再阅读ttnphns'。我认为前者可以更直接地回答原始问题,而后者则增加了一些有趣的上下文。ttnphns还显示了流行的软件例程中可同时使用的两种功能,这本身就可能构成一个在另一个软件上使用一个功能的原因(请参阅gregmacfarlane的声明)。
Ben Ogorek

Answers:


21

Y

logP(i)P(not i)=logiti=linear combinationi

logP(i)P(r)=logiti=linear combinationirir

i

P(i)=exp(logiti)exp(logiti)+exp(logitj)++exp(logitr)i,j,,rrexp(logit)=1P(i)=exp(logiti)exp(logiti)+1


Y

可以使用Logistic回归过程或多项Logistic回归过程拟合二元Logistic回归模型。每个过程都具有其他过程中不可用的选项。一个重要的理论区别是,逻辑回归程序使用个案案例级别的数据来生成所有预测,残差,影响统计量和拟合优度检验,而与如何输入数据以及是否使用协变量模式无关小于案例总数,而多项式Lo​​gistic回归过程在内部聚合案例以形成具有相同协变量模式的预测变量子集,并基于这些子群体生成预测,残差和拟合优度检验。

Logistic回归提供以下独特功能:

•Hosmer-Lemeshow模型拟合优度检验

•分步分析

•定义模型参数化的对比

•分类的其他切点

•分类图

•模型适用于一组案件,适用于一组保留的案件

•保存预测,残差和影响统计数据

多项逻辑回归提供以下独特功能:

•皮尔逊和偏差卡方检验,以证明模型拟合良好

•拟合优度检验数据分组的子种群规范

•按亚群列出计数,预测计数和残差

•校正过度分散的方差估计

•参数估计的协方差矩阵

•参数线性组合测试

•嵌套模型的明确规范

•使用差异变量拟合1-1匹配的条件逻辑回归模型


我知道这些模型会有所不同,但是我不知道哪种情况下哪种更好。我将以另一种方式提出这个问题。如果您被赋予一项任务:为每个人预测某个手机公司是最喜欢的手机公司的概率(假设每个人都有最喜欢的手机公司)。您将使用哪种方法?与第二种方法相比,优点是什么?
Tomek Tarczynski 2013年

@Tomek我的回答有所扩展
ttnphns 2013年

尽管我认为@julieth的答案是OP最初问题的最佳答案,但我确实欠您介绍无关紧要替代品假设的介绍。我仍然有一个问题是,单独的物流是否真的可以解决它?您链接到的Wikipedia文章提到了可能违反IIA的概率和“嵌套登录”
Ben Ogorek,

iriir

13

由于标题的原因,我假设“多重逻辑回归的优势”的意思是“多项回归”。同时拟合模型通常具有很多优点。在Agresti(分类数据分析,2002)第273页中描述了这种特殊情况。总而言之(对Agresti进行解释),您希望联合模型的估计与分层模型不同。单独的逻辑模型倾向于具有更大的标准误差,尽管当将结果的最频繁级别设置为参考级别时,它可能并不那么糟糕。


谢谢!我将尽力找到这本书,可惜的google.books提供内容只能做到268页
托梅克Tarczynski

@TomekTarczynski我从段落中总结了相关信息,因此从看书中您可能不会获得与该问题有关的更多信息(尽管这本书很棒,因此您将获得其他好的信息)。
2013年

4
从Agresti的书中引述到:“分开拟合的估计值与同时拟合J-1 logits的ML估计值不同。它们的效率较低,往往会有较大的标准误差。但是,Begg和Gray 1984年指出,效率损失当具有最高患病率的响应类别是基线时,则较小。”
Franck Dernoncourt 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.