逻辑回归的性质


17

我们正在进行一些逻辑回归,我们已经意识到,平均估计概率总是等于样本中概率的比例。也就是说,拟合值的平均值等于样本的平均值。

谁能向我解释原因或给我参考以找到该演示?


2
其原因是逻辑回归正试图实现以下目标:对数据分布建模,包括先验概率(“平均值”)。这是不期望的行为吗?
bayerj 2011年

1
@bayer链接函数的非线性表示此现象比您的表征更深。这里确实有一些要演示的东西。
Whuber

当使用逻辑回归来估计风险时,此属性有时称为“大范围校准”。
julieth

Answers:


26

您观察到的行为是逻辑回归中的“典型”情况,但并非总是如此。它还具有更广泛的通用性(请参见下文)。这是三个不同事实汇合的结果。

  1. 选择将对数奇数建模为预测变量的线性函数,
  2. 使用最大似然来获得逻辑回归模型中系数的估计值,以及
  3. 在模型中包含拦截项。

如果不存在上述任何一项,则平均估计概率通常将不匹配样本中那些概率的比例。

但是,(几乎)所有统计软件对此类模型使用最大似然估计,因此,在实践中,除特殊情况外,基本上始终存在第1项和第2项,而通常存在第3项。

一些细节

在典型的逻辑回归框架中,我们以概率观察独立的二项式试验的结果。让Ÿ 是观察到的反应。那么总似然为 L = n i = 1 p y i i1 - p i 1 - y i = n i = 1 exp y i log p i /1 - p ip一世ÿ一世 因此对数似然为 = n i = 1 y i log p i /1 p i+ n i = 1 log 1 p i

大号=一世=1个ñp一世ÿ一世1个-p一世1个-ÿ一世=一世=1个ñ经验值ÿ一世日志p一世/1个-p一世+日志1个-p一世
=i=1nyilog(pi/(1pi))+i=1nlog(1pi).

现在,对于每个观察,我们都有一个预测变量的向量,根据上述事实1,逻辑回归模型假定 log p ixi 对于参数 β的一些未知向量。:通过重新安排这,我们得到 p = 1 /1 + Ë - β 牛逼X

logpi1pi=βTxi,
βpi=1/(1+eβTxi)

使用最大似然以适应模型(事实2)得到一组方程,从考虑解决。观察 ∂&/β=0

β=iyixiixi1+exp(βTxi)=iyixiipixi,
iyixi=ip^ixi,
p^i=(1+exp(β^Txi))1

xijiiyixij=iyi=ip^i

模拟

R

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

一般情况:如前所述,平均响应等于平均预测均值的性质对于使用最大似然广义线性模型类别(使用规范链接函数)并在其中包含截距具有更大的通用性。模型。

参考文献

以下是相关理论的一些很好的参考。

  1. A. Agresti(2002),分类数据分析,第二版,Wiley。
  2. P. McCullagh和JA Nelder(1989),《广义线性模型》,第二版,查普曼和霍尔。(来自一般方法原始作者的文字。)

4
+1在Maddala(1983)计量经济学中的有限因变量和定性变量,第25-26页中也给出了该证明(特定于逻辑回归模型,而没有试图推广到所有GLM)。
StasK,2011年

@StasK:感谢您提供我不熟悉的其他参考。干杯。
主教

@cardinal:我不记得Agresti讨论过这个问题。在McCullagh和Nelder中讨论过吗?
julieth
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.