Logit和Probit模型之间的区别


299

LogitProbit模型有什么区别?

我对了解何时使用逻辑回归以及何时使用Probit更感兴趣。

如果有任何文献使用R对其进行定义,那也将有所帮助。


5
两者的结果几乎没有任何区别(请参阅Paap&Franses 2000)

1
我曾经有一个广泛的(生物测定)数据集,在该数据集中,我们可以看到概率略高的拟合度,但是结论没有任何区别。
kjetil b halvorsen

1
@Alyas Shah:这就是为什么我的数据概率(略)更好的原因---由于高于一定剂量,死亡率为100%,低于某个阈值,死亡率为0%,所以我们看不到缓慢的方法的logit!
kjetil b halvorsen 2015年

3
对于真实数据,与logit或probit生成的数据相反,对问题的一种体贴解决方法是进行模型比较。以我的经验,数据很少倾向于这两种模型之一。
西安

2
我听说,逻辑分布的实际使用源于它与正常CDF的相似性以及其简单得多的累积分布函数。确实,正常的CDF包含一个必须进行评估的积分-我认为在过去,这在计算上是昂贵的。
dv_bn '16

Answers:


144

它们的主要区别在于链接功能。

在Logit中: Pr(Y=1X)=[1+eXβ]1

在Probit中: (累积正常pdf)Pr(Y=1X)=Φ(Xβ)

换句话说,物流的尾巴稍微平一些。即,概率曲线比对数曲线更快地接近轴。

Logit的解释比Probit的解释容易。Logistic回归可以解释为对数赔率建模(即,每天吸烟> 25支香烟的人在65岁之前死亡的可能性是其6倍)。通常,人们以logit开始建模。您可以使用每种模型的似然值来确定对数与概率。


6
感谢您的回答Vinux。但是我也想知道何时使用logit和使用probit。我知道logit比probit更为流行,在大多数情况下,我们使用logit回归。但是在某些情况下,Probit模型更有用。你能告诉我那些情况是什么。以及如何区分那些案件与常规案件。
Beta

5
当您关注曲线的尾部时,有时选择logit或probit很重要。没有选择probit或logit的确切规则。您可以通过查看可能性(或对数可能性)或AIC选择模型。
vinux 2012年

12
谢谢你的建议!您能否详细说明如何在logit与probit之间进行选择?特别是:(1)如何知道何时关注曲线的尾部?(2)如何通过查看似然,对数似然或AIC选择模型?我应该特别看什么,这将如何影响我对使用哪种模型的决策?
DW

好吧,您能举个例子说明logit与probit相比失败的情况吗?我找不到您想要的。
炒锅

1
@flies这里表示矩阵的转置。XX
Mathemanic '16

445

可以将标准线性模型(例如,简单的回归模型)视为具有两个“部分”。这些被称为结构成分随机成分。例如: 前两个项(即)构成结构成分,而(表示正态分布的误差项)是随机成分。如果响应变量不是正态分布的(例如,如果您的响应变量是二进制的),则此方法可能不再有效。在广义线性模型

Y=β0+β1X+εwhere εN(0,σ2)
β0+β1Xε(GLiM)是为解决此类情况而开发的,logit和Probit模型是GLiM的特殊情况,适用于二进制变量(或对过程进行某些调整的多类别响应变量)。GLiM具有三个部分,一个结构组件,一个链接函数和一个响应分布。例如: 这里再次是结构组件,是链接函数,而
g(μ)=β0+β1X
β0+β1Xg()μ是协变量空间中给定点的条件响应分布的平均值。我们在这里对结构组件的思考方式与我们在标准线性模型中的思考方式并没有真正的不同。实际上,这是GLiM的一大优势。因为对于许多分布,方差是均值的函数,并且拟合了条件均值(并且已规定了响应分布),所以您已自动考虑了线性模型中随机分量的类似物(注意:这可以是在实践中更加复杂)。

链接功能是GLiM的关键:由于响应变量的分布是非正态的,因此我们可以将结构组件连接到响应-从而“链接”它们(因此得名)。这也是您提出问题的关键,因为logit和probit是链接(如@vinux所述),了解链接功能将使我们能够明智地选择何时使用哪个链接。尽管可能有许多可以接受的链接功能,但通常会有一些特殊的功能。不想深入杂草(这可能会非常技术化),预测平均值在数学上不一定与响应分布的规范位置参数相同μ。“这样做的好处是存在一个最小的足够的统计信息”(德语Rodriguez)。Logit是二进制响应数据(更具体地讲,二项式分布)的规范链接。但是,有很多函数可以将结构组件映射到区间,因此是可以接受的;Probit也很流行,但是有时还会使用其他选项(例如互补日志log,通常称为“ cloglog”)。因此,有很多可能的链接功能,链接功能的选择非常重要。应基于以下几种组合进行选择: β(0,1)ln(ln(1μ))

  1. 了解响应分布,
  2. 理论上的考虑,以及
  3. 对数据的经验拟合。

在介绍了一些概念背景之后,您需要更清楚地理解这些想法(请原谅),我将解释如何使用这些考虑因素来指导您选择链接。(让我注意,我认为@David的注释准确地说明了为什么在实践中选择不同的链接。)首先,如果您的响应变量是伯努利试验的结果(即或),则您的响应分布为二项式,什么你实际上是建模的观察是的概率(即)。结果,任何将实数线映射到区间的函数011π(Y=1)(,+)(0,1)将工作。

从实体理论的角度来看,如果您认为协变量与成功概率直接相关,那么通常会选择逻辑回归,因为这是典范的联系。但是,请考虑以下示例:要求您high_Blood_Pressure根据某些协变量进行建模。血压本身在人群中呈正态分布(我实际上并不知道,但看起来表面上是合理的),尽管如此,临床医生在研究过程中将其二等分(也就是说,他们仅记录了“高血压”或“正常” )。在这种情况下,出于理论原因,先验概率将是优先的。这就是@Elvis的意思,“您的二进制结果取决于隐藏的高斯变量”。对称的,如果您认为成功的可能性从零开始缓慢增加,但是随着接近1逐渐减小,则需要进行堵塞。

最后,请注意,模型对数据的经验拟合不太可能对选择链接有所帮助,除非所讨论的链接函数的形状存在显着差异(其中logit和probit不变)。例如,考虑以下模拟:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

即使当我们知道数据是由概率模型生成的,并且有1000个数据点时,概率模型也只能在70%的时间内产生更好的拟合,即使那样,通常也只有很小的数量。考虑最后一次迭代:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

原因很简单,当给定相同的输入时,logit和probit链接函数会产生非常相似的输出。

在此处输入图片说明

如@vinux所述,logit和probit函数实际上是相同的,不同之处在于logit在“转弯”时离边界稍远。(请注意,要使logit和最佳对齐,Logit的必须是对应斜率值的倍。此外,我可以将Cloglog稍微移一下,以便它们位于顶部彼此之间,但我将其留在一边以使图更易读。)请注意,该堵塞不对称,而其他堵塞不对称;它开始更早地从0拉开,但速度较慢,然后接近1,然后急剧转向。 β11.7

关于链接功能,可以说两三件事。首先,将身份函数()作为链接函数,可以使我们将标准线性模型理解为广义线性模型的特例(即,响应分布是正态的,并且链接是身份功能)。同样重要的是要认识到,链接实例化的任何转换都正确地应用于控制响应分布的参数(即),而不是实际的响应数据g(η)=ημ。最后,由于在实践中我们永远都没有要转换的基础参数,因此在讨论这些模型时,通常会将实际链接视为隐含的,而该模型由应用于结构组件的链接函数的表示。也就是说: 例如,逻辑回归通常表示为: 而不是:

μ=g1(β0+β1X)
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1π(Y))=β0+β1X

有关广义线性模型的快速,清晰但扎实的概述,请参见Fitzmaurice,Laird和Ware(2004)的第10章虽然我是对此的自己改编,但我还是在该书的第10章中寻求了部分答案)。 -和其他-重要的是,任何错误都是我自己的)。有关如何在R中安装这些模型的信息,请查看基本包装中有关功能胶卷的文档。

(稍后添加最后一条注释:)我偶尔听到人们说您不应该使用该概率,因为它不能被解释。尽管测试版的解释不太直观,但事实并非如此。通过逻辑回归,的一个单位更改与“成功”的对数赔率中的变化(或者,赔率中的倍变化)相关联,其他所有条件都相同。有了一个概率,这将是的更改。(例如,考虑得分分别为1和2 的数据集中的两个观测值。)要将其转换为预测概率,可以将它们传递给普通CDF。X1β1exp(β1)β1 zz,或在表上查找它们。 z

(对@vinux和@Elvis都+1。在这里,我试图提供一个更广泛的框架,在其中考虑这些事情,然后使用它来解决logit和probit之间的选择。)


79
多谢你们。我很高兴这一切顺利完成;这实际上是一个很好的示例,说明了如何通过回答问题以及询问和阅读他人的答案来学习CV方面的知识:我事先知道这些信息,但还不够好,我只能冷酷地写出来。因此,我实际上花了一些时间浏览旧文本,以弄清楚如何组织材料并明确提出,并在此过程中为自己巩固了这些想法。
gung

6
@gung感谢您的解释,这是我所遇到的最一般的GLM描述之一。
fmark 2012年

@whuber“如果响应变量不是正态分布的(例如,如果您的响应变量是二进制的),则此方法[标准OLS]可能不再有效。” 很抱歉再次打扰您,但我感到有些困惑。我了解OLS 中没有因变量的无条件分布假设。这句话是否意味着暗示由于响应非常不符合标准(即二进制变量),以至于给定条件分布(以及残差的分布)不可能接近正态?X
landroni 2014年

7
@landroni,您可能要问一个新问题。简而言之,如果您的响应是二进制的,则给定X = xi的Y的条件分布不可能接近正态性;它永远是二项式的。原始残差的分布也永远不会接近正态分布。它们将始终为pi&(1-pi)。但是,在给定X = xi(即pi)的情况下,Y的条件均值的采样分布将接近正态。
gung

2
我有些同意兰德罗尼的忧虑:毕竟,正态分布的结果非正态分布的残差,非正态分布的结果可能具有正态分布的残差。结果的问题似乎与其分配本身有关,而不是其范围。
亚历克西斯

47

除了vinux的答案,这已经说明了最重要的一点:

  • logit回归中的系数具有比值比的自然解释;β

  • 当您认为二进制结果取决于一个隐藏的高斯变量时,概率回归是自然模型。1]以确定的方式用:当时,。Z=Xβ+ϵ ϵN(0,1)Y=1Z>0

  • 更一般地,并且更自然,probistic回归是更加自然的模型,如果你认为该结果是恰好当一些超过阈值,与。很容易看出,这可以简化为上述情况:只需将缩放为;很容易检查方程[eq。1]仍然成立(重新缩放系数并转换截距)。这些模型已经过辩护,例如,在医学环境中,其中是不可观察的连续变量,而例如在时出现的疾病1Z0=Xβ0+ϵ0cϵN(0,σ2)Z0Z=1σ(Z0c)Z0YZ0 超过某些“病理阈值”。

logit模型和probit模型都只是模型。正如Box曾经说过的:“所有模型都是错误的,有些是有用的”!这两款机型将让你检测的效果存在上结局 ; 除了在某些非常特殊的情况下,它们都不是“真实的”,对它们的解释应谨慎行事。XY


17
值得注意的是,概率模型与logit模型的使用在很大程度上受学科传统的​​影响。例如,经济学家似乎更习惯于概率分析,而心理计量学的研究人员则主要依靠logit模型。
David

抛硬币背后的模型是什么?
skan,

32

关于你的声明

我对了解何时使用Logistic回归以及何时使用Probit更感兴趣

在这两者之间进行选择时,这里已经有很多答案可以提出要考虑的问题,但是还没有提到一个重要的考虑因素:当您的兴趣是使用混合效应logistic或概率模型,有一个理论上的偏爱概率模型的基础。当然,这是假设没有先验的理由偏爱逻辑模型(例如,如果您正在进行仿真并且知道它是真实模型)。

首先,要了解为什么如此,首先请注意,这两个模型都可以视为阈值连续回归模型。例如,考虑在群集观察的简单线性混合效应模型:ij

yij=μ+ηj+εij

其中是聚类随机效应,而是误差项。然后将logistic和probit回归模型等效地表示为由该模型生成并以0为阈值:ηjN(0,σ2)jεij

yij={1if   yij00if   yij<0

如果项是正态分布的,则表示概率回归,如果按逻辑分布,则有逻辑回归模型。由于未识别规模,因此将这些残差误差分别指定为标准正态误差和标准对数误差。εij

皮尔森(Pearson,1900)指出,如果生成了多元正态数据并将其阈值定为分类,则仍在统计学上确定了基础变量之间的相关性-这些相关性被称为多色相关性,特定于二元情况,它们被称为四色相关性。这意味着,在概率模型中,基础正态分布变量的类内相关系数为:

ICC=σ^2σ^2+1

被识别,这意味着在概率情况下,您可以充分描述基本潜在变量的联合分布

在逻辑模型中,仍然可以识别逻辑模型中的随机效应方差,但是它不能完全表征依存结构(因此是联合分布),因为它是正常变量和逻辑随机变量之间的混合,而没有由均值和协方差矩阵完全指定的属性 注意潜在的潜在变量的这种奇怪的参数假设,使得对逻辑模型中的随机效应的解释通常不太清楚。


6
在其他情况下,人们也更喜欢概率论。计量经济学选择模型(即Heckman)仅使用概率模型进行证明。我对此不太确定,但是我也相信一些二进制变量是内生的SEM模型也利用了概率模型,因为假设了最大似然估计所需的多元正态性。
Andy W

1
@AndyW,您对二进制SEM是正确的-这与我在这里提出的观点密切相关-估算(和后续解释)得到了以下事实的支持:确定了基本的相关性并完全表征了联合分布。
2012年

29

先前(出色)答案中未解决的重要一点是实际估算步骤。多项式logit模型具有易于集成的PDF,从而导致选择概率的封闭式表达。正态分布的密度函数不太容易集成,因此概率模型通常需要模拟。因此,尽管两个模型都是现实情况的抽象,但是logit通常在较大的问题(多个替代方案或大型数据集)上使用起来更快。

为了更清楚地看到这一点,选择特定结果的概率是预测变量和误差项的函数(跟随Trainεxε

˚F X

P=I[ε>βx]f(ε)dε
其中是指标函数,如果选择1,则为零。评估该积分在很大程度上取决于的假设。在对数模型中,这是一种逻辑函数,在概率模型中为正态分布。对于logit模型,这变为If(x)

P=ε=βxf(ε)dε=1F(βx)=11exp(βx)

对于概率模型,不存在这种方便的形式。


4
这就是为什么多项式对数函数通常用于估算空间离散选择问题的原因,即使实际现象可以通过概率更好地建模。
fmark 2012年

您如何将空间元素合并到DC模型中?我很感兴趣
gregmacfarlane 2012年

2
但是,在选择的情况下,概率更灵活,所以今天就习惯了!多项式对数意味着不相关选择的不相关性的假设,但并非总是凭经验证明的。
kjetil b halvorsen

1
您认为IIA并不总是合理的,您也很正确,使用现代估算器,可以相当迅速地估算出概率模型。但是,GEV模型可以解决IIA问题,并且在某些情况下可能更好地表示选择结构。我也不确定Probit是否“今天使用得更多”;在我的领域(运输建模)中,概率模型仍然是新颖的。
gregmacfarlane 2015年

13

我要说的话绝不会使到目前为止的话无效。我只想指出,概率模型不会受到IIA(无关替代品的独立性)假设的困扰,而logit模型却会遭受。

以Train的出色著作为例。如果我有一个logit可以预测我要乘坐蓝色巴士还是开车,那么添加红色巴士将按比例从汽车和蓝色巴士中提取。但是使用概率模型可以避免此问题。从本质上讲,您可以从蓝色巴士中提取更多资金,因为它们是更接近的替代产品,而不是按比例从两者中提取。

如上所述,您做出的牺牲是没有封闭形式的解决方案。当我担心IIA问题时,Probit往往是我的首选。这并不是说在logit框架(GEV发行版)中没有解决IIA的方法。但是我一直将这类模型视为解决问题的笨拙方法。有了您可以获得的计算速度,我想说的是probit。


1
您能解释一下“无关紧要的独立性”吗?
skan,

3
请注意,仍然可以估算一个实施IIA假设的变体的多项式概率模型(例如在Stata中的mprobit命令中)。为了消除多项式概率中的IIA,必须对响应变量中每个替代方案的潜在变量误差的方差-协方差矩阵建模。
肯吉(Kenji)

8

logit和probit之间最著名的区别之一是(理论上)回归残差分布:概率为正态,logit为对数(请参阅:Koop G.计量经济学导论,奇切斯特,威利:2008:280)。


2
但是我们如何知道我们的数据应该具有理论上的正态分布还是逻辑剩余分布呢?例如当我掷硬币时。
skan,

8

我为这个问题提供了一个实用的答案,该问题仅关注“何时使用逻辑回归,何时使用概率”,而没有涉及统计细节,而是关注基于统计的决策。答案取决于两个主要方面:您是否具有学科偏好,并且只关心哪种模型更适合您的数据?

基本区别

logit模型和probit模型都提供统计模型,这些模型给出因变量的响应变量为0或1的概率。它们非常相似,并且通常给出实际的结果,但由于它们使用不同的函数来计算概率,因此其结果有时会略有不同。不同。

学科偏好

一些学术学科通常偏爱其中一个。如果您打算以特定的传统偏好将结果发布或展示给一门学术学科,那么请由其决定您的选择,以便您的发现更容易被接受。例如(来自方法顾问),

Logit(也称为逻辑回归)在诸如流行病学的健康科学中更为流行,部分原因是可以用优势比来解释系数。可以对概率模型进行一般化,以解决更高级的计量经济学环境中的非恒定误差方差(称为异方差概率模型),因此在某些情况下被经济学家和政治学家使用。

关键是结果的差异很小,以至于普通观众理解结果的能力超过了两种方法之间的微小差异。

如果您最关心的是更合适的...

如果您的研究领域不偏爱某一学科,那么我对这个问题的研究(更好,logit或probit)使我得出结论,使用probit通常更好,因为它几乎总是会对等于或优于logit模型的数据进行统计拟合。当logit模型更适合时,最显着的例外是“极端独立变量”(我在下面解释)。

我的结论几乎完全基于(在搜索了许多其他资料之后)基于Hahn,ED&Soyer,R.,2005。Probit和Logit模型:多元领域中的差异。可在以下网址获取:http : //citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf。这是我对这篇文章的实用决策结论的总结,涉及logit与Probit多元模型是否更好地拟合了数据(这些结论也适用于单变量模型,但它们仅模拟了两个自变量的影响):

  • 在大多数情况下,除了以下两个例外,logit模型和Probit模型同样适合数据。

  • 在“极端自变量”的情况下,Logit绝对更好。这些是独立变量,其中一个特别大或一个很小的值通常会决定因变量是0还是1,从而覆盖大多数其他变量的影响。Hahn和Soyer因此正式定义了它(第4页):

极端独立变量级别涉及三个事件的融合。首先,极端自变量水平出现在自变量的最高或最低极端处。例如,假设自变量x取值为1、2和3.2。极端独立变量级别将涉及x = 3.2(或x = 1)处的值。其次,总n中的很大一部分(例如60%)必须处于此水平。第三,在此级别上成功的可能性本身应该是极端的(例如,大于99%)。

  • 对于具有中等或较大样本量的“随机效应模型”Probit更好(对于小样本量,它等于logit)。对于固定效果模型,probit和logit都同样好。我不太了解哈恩和索耶在他们的文章中所说的“随机效应模型”是什么意思。尽管提供了许多定义(例如在Stack Exchange问​​题中),但该术语的定义实际上是模棱两可和不一致的。但是由于logit在这方面从来没有优于probit,因此仅通过选择probit即可解决这一问题。

基于Hahn和Soyer的分析,我的结论是始终使用概率模型,除非是极端自变量,否则应选择logit。极端独立变量并不是很常见,应该很容易识别。凭此经验法则,该模型是否为随机效应模型都无关紧要。在模型是随机效应模型(首选概率的模型)但存在极端自变量(首选logit的模型)的情况下,尽管Hahn和Soyer对此未发表评论,但我从他们的文章中得出的印象是极端自变量更具优势,因此首选logit。


5

在下文中,我将解释一种估计器,该估计器将Probit和Logit嵌套为特殊情况,并且可以在其中进行测试,以比较合适。

probit和logit都可以嵌套在潜在变量模型中,

yi=xiβ+εi,εiG(),

观察到的成分在哪里

yi=1(yi>0).

如果选择作为普通CDF,则将获得概率;如果选择Logistic CDF,则将得到Logit。无论哪种方式,似然函数均采用以下形式G

(β)=yilogG(xiβ)+(1yi)log[1G(xiβ)].

但是,如果您担心自己做出的假设,则可以使用Klein&Spady(1993; Econometrica)估计器。此估算器使您可以完全灵活地指定cdf,然后甚至可以随后测试正态性或逻辑性(?)的有效性。G

在Klein&Spady中,准则函数改为

(β)=yilogG^(xiβ)+(1yi)log[1G^(xiβ)],

其中是cdf的非参数估计值,例如使用Nadaraya-Watson核回归估计器估计的值,G^()

G^(z)=i=1NyiK(zxiβh)j=1NK(zxjβh),

其中称为“内核”(通常选择高斯cdf或三角内核),为“带宽”。有插件值可以选择后者,但如果的每一步都发生变化(平衡了所谓的偏差方差折衷),它可能会复杂得多,并且会使的外部优化更加复杂。Khβhh

改进: Ichimura建议内核回归应该忽略第个观察值;否则,的选择可能会因样本过度拟合的问题(方差过大)而变得复杂。G^ih

讨论: Klein-Spady估计器的一个缺点是它可能会陷入局部最小值。这是因为 cdf适应给定的参数。我认识几个尝试过实现它的学生,他们在实现收敛性和避免数值问题上遇到了问题。因此,这不是一个容易估算的方法。此外,的半参数说明使估计参数的推论变得复杂。GβG


5

它们非常相似。

在两个模型中,给定的概率可以看作是随机隐藏变量(具有一定的固定分布)低于某个阈值的概率,该阈值线性地取决于:Y=1XSX

P(Y=1|X)=P(S<βX)

或等效地:

P(Y=1|X)=P(βXS>0)

然后,一切取决于您为的分布选择什么:S

  • 在逻辑回归中,具有逻辑分布。S
  • 在概率回归中,具有正态分布。S

方差并不重要,因为它可以通过将乘以常数来自动补偿。如果使用截距,均值也无关紧要。β

这可以看作是阈值效应。某些不可见结果是的线性函数,并且像线性回归一样添加了一些噪声,并且通过说出0/1结果:X - 小号E=βXSXS

  • 当,结果为Y = 1E>0Y=1
  • 当,结果为Y = 0E<0Y=0

logistic和概率之间的差异在于logistic和正态分布之间的差异。没有那么多。调整后,它们看起来像: 在此处输入图片说明

物流的尾巴较重。这可能会影响小(<1%)或高(> 99%)概率的事件如何拟合。实际上,这种差异在大多数情况下甚至都不明显:logit和probit基本上预测了同一件事。参见http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

从逻辑上讲,逻辑回归可以通过等同于最大熵原理来证明其合理性:http : //www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -熵模型/

在计算方面:logistic更简单,因为logistic分布的累积分布具有与正态分布不同的封闭公式。但是当您使用多维时,正态分布具有良好的属性,这就是为什么在高级情况下通常更喜欢使用probit的原因。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.