Logistic回归-错误项及其分布


31

关于逻辑回归中是否存在错误项(及其假设分布),我在不同地方读到:

  1. 没有错误项
  2. 误差项具有二项式分布(根据响应变量的分布)
  3. 错误项具有逻辑分布

有人可以澄清一下吗?


6
使用逻辑回归-或更确切地说是GLM-将观测值视为“平均值+误差” 通常没有用。最好根据条件分布来思考。我不会说“不存在错误术语”,因为“以这些术语思考无济于事”。因此,我不会说是在1还是2之间进行选择。我会说“以上都不是”通常更好。但是,无论人们为“ 1”辩护的程度如何。或“ 2”,但“ 3”。肯定是错的。你在哪里看到的?yi|x
Glen_b-恢复莫妮卡2014年

1
@Glen_b:有人会争论(2)吗?我知道有人说过它,但从未质疑过它。
Scortchi-恢复莫妮卡

3
@Glen_b这三个语句都具有建设性的解释,它们都是正确的。(3)在en.wikipedia.org/wiki/Logistic_distribution#Applicationsen.wikipedia.org/wiki/Discrete_choice#Binary_Choice上解决
ub

@whuber:我已经更正了我的答案wrt(3),这没有被仔细考虑。但仍对(2)在什么意义上是正确的感到困惑。
Scortchi-恢复莫妮卡

2
@Scortchi尽管您对(2)是错误的是正确的,但如果我们将其解释为表示观察值与其期望值之间的差异具有通过期望值转换的二项式分布,那么它将(通常)是正确的。(2)中的括号强烈表明这是预期的解释。请注意,也可以定义其他有用的“误差项”,例如Hosmer&Lemeshow中描述的和偏差误差项(并且,在此处讨论的适当警告下,它们的平方具有近似分布) 。χ2χ2
ub

Answers:


25

在线性回归中,假设观测值遵循高斯分布,且均值参数取决于预测值。如果从观测值中减去平均值,则会得到以下误差:均值为零且与预测值无关的高斯分布-也就是说,任何一组预测值的误差都遵循相同的分布。

在逻辑回归中,假设遵循伯努利分布†,且均值(概率)取决于预测值。因此,对于确定均值任何给定预测值,只有两个可能的错误:发生概率为,&发生概率为。对于其他预测变量值,误差将是发生概率为,&发生概率为π 1 - π π 0 - π 1 - π 1 - π ' π ' 0 - π ' 1 - π 'y{0,1}π1ππ0π1π1ππ0π1π。因此,没有独立于预测变量值的常见错误分布,这就是为什么人们说“不存在错误项”(1)的原因。

“误差项具有二项式分布”(2)只是草率—“高斯模型有高斯误差,人机二项模型有二项误差”。(或者,正如@whuber指出的那样,它可以被理解为“观察值与其期望值之间的差异具有由期望值转换的二项式分布”。)

“误差项具有逻辑分布”(3)来自模型的逻辑回归推导,在模型中,您观察逻辑分布后具有错误的潜在变量是否超过某个阈值。因此,它与上面定义的错误不同。(在此上下文之外或未明确引用潜变量的情况下说IMO似乎是一件奇怪的事情。)

†如果您有观测值具有相同的预测值,并且每个观测值都赋予相同的概率,则它们的和遵循二项式分布,且概率为而没有。试验。将视为误差会得出相同的结论。π Σ ý π ķ Σ ý - ķ πkπyπkykπ


1
您能否提供一个有关“无错误术语存在”部分的简单示例。我很难理解它的编写方式。
quirik '17

@Scortchi在实际使用模型以某个阈值(例如0.5)使用这种情况时,我遇到了麻烦。则错误为1或0。当真实标签为1时,可以将其视为参数1-的伯努利随机变量吗?π
wabbit

17

之前已经讨论过了。被约束为具有预测值的模型不可能具有会使预测超出的附加误差项。考虑一下二进制逻辑模型的最简单示例-仅包含拦截的模型。这等效于伯努利单样本问题,通常称为(在这种简单情况下)二项式问题,因为(1)所有信息都包含在样本大小和事件数量中,或者(2)伯努利分布是特例的二项式分布的平方。在这种情况下,原始数据是一系列二进制值,并且每个都有一个带有未知参数的伯努利分布[ 0 1 ] Ñ = 1 θ[0,1][0,1]n=1θ代表事件的可能性。伯努利分布中没有误差项,只有一个未知的概率。逻辑模型是概率模型。


9

对我来说,逻辑,线性,泊松回归等的统一一直是在广义线性模型框架中对均值和方差的规范。我们首先为数据指定概率分布,为连续数据指定正态分布,为二分法指定伯努利,为计数分配泊松等,然后指定一个链接函数来描述均值与线性预测变量的关系:

g(μi)=α+xiTβ

对于线性回归,。g(μi)=μi

对于logistic回归,。g(μi)=log(μi1μi)

对于Poisson回归,。g(μi)=log(μi)

就编写错误术语而言,唯一可以考虑的就是声明:

È Ë = 0 V - [R ë = σ 2μ σ 2μ = μ 1 - μ = - 1α + Xyi=g1(α+xiTβ)+ei其中且。例如,对于逻辑回归,。但是,您不能明确声明具有如上所述的伯努利分布。E(ei)=0Var(ei)=σ2(μi)Èσ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ))ei

但是请注意,基本的广义线性模型仅假设结构用于分布的均值和方差。可以看出,估计方程和Hessian矩阵仅取决于您在模型中假设的均值和方差。因此,您不必担心该模型的分布,因为高阶矩在模型参数的估计中不起作用。ei


0
  1. 没有错误。我们在建模均值!平均值只是一个真实数字。
  2. 这对我来说没有意义。
  3. 将响应变量视为潜在变量。如果假设误差项是正态分布的,则该模型将成为概率模型。如果您假设误差项的分布是逻辑的,那么模型就是逻辑回归。

2
我看不出这如何帮助人们理解概率模型。概率模型要比看起来简单得多。
Frank Harrell,2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.