通过逻辑回归和对数线性回归估计的系数何时有所不同?


11

在对连续比例建模时(例如,在调查样方上的比例植被覆盖,或从事某项活动的时间比例),逻辑回归被认为是不合适的(例如,Warton&Hui(2011)反正弦是精氨酸:生态学中比例的分析)。相反,对数转换比例后的OLS回归或beta回归更为合适。

使用R lm和时,在什么条件下对数线性回归和对数回归的系数估计不同glm

以下面的模拟数据集为例,我们可以假定它们p是我们的原始数据(即连续比例,而不是表示):ñsüCCËssËsñŤ[R一世一种s

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

在此处输入图片说明

拟合对数线性模型,我们获得:

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Logistic回归结果:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

Logistic回归系数估计是否始终相对于logit-linear模型的估计无偏?


1
请注意一个理论上的区别:将二项式模型应用于比例,您假设每个比例后面的试验都是独立的,也就是说,在比例后面的0.1“有”,例如10个独立试验获得了成功。对于线性模型,0.1只是一个值,一些任意度量。
ttnphns

1
对于以OP的方式将二项式模型应用于比例到底有多有意义,我有些怀疑。毕竟,这family=binomial意味着因变量表示二项式计数-而不是比例。怎么会glm知道这0.1就像“十分之一”而不是“十分之十”?尽管比例本身没有差异,但这对标准误差的计算方式有重大影响。
Wolfgang'3

1
@Wolfgang-我意识到(并在我的帖子中提到)用logistic回归对这种连续比例建模是不合适的。我对系数的点估计是否/何时/如何不同感兴趣。
jbaums 2015年

2
@Wolfgang,您是对的,但这取决于实现方式。一些程序将允许输入比例作为DV和1来代替基准,而数据集由实际基准加权。因此,看起来好像您在分析比例,而不是计数。
ttnphns 2015年

1
@ttnphns同样,在R中,可以输入比例作为DV,并向weightsarg 提供一个包含试验次数的向量(尽管这不是我在帖子中尝试的内容,因为我故意不正确地分析数据)。
jbaums 2015年

Answers:


5

也许可以用“反向”方式来回答-即它们何时相同?

现在,逻辑回归中使用的IRLS算法在这里提供了一些见解。收敛时,您可以将模型系数表示为:

β^ØG一世sŤ一世C=XŤw ^X-1个XŤw ^ž

w ^w ^一世一世=ñ一世p一世1个-p一世žž一世=X一世Ťβ^ØG一世sŤ一世C+ÿ一世-ñ一世p一世ñ一世p一世1个-p一世v一种[Rž一世-X一世Ťβ^=w ^一世一世-1个žβž

日志ÿ-日志ñ-ÿÿ1个-ÿ/ñÿñlm ()


令人印象深刻。您能否使用给定的模拟数据通过R代码显示最后一句话?谢谢!
JellicleCat 2015年

2

如果我错了,请不要犹豫指出。

首先,我这么说,在第二种情况下,您glm打错电话了!要通过来拟合逻辑回归glm,响应应该是(二进制)分类变量,但是您使用p,数字变量!我不得不说warning太温柔了,无法让用户知道他们的错误...

而且,正如您可能期望的那样,通过COINCIDENCE的两个拟合,您可以获得相似的系数估计。如果将替换logit.p <- a + b*x + rnorm(1000, 0, 0.2)logit.p <- a + b*x + rnorm(1000, 0, 0.7)0.2即将误差项的方差从更改为0.7,则两次拟合的结果将有很大的不同,尽管第二个拟合(glm)完全没有意义...

逻辑回归用于(二进制)分类,因此您应该具有分类响应,如上所述。例如,对响应的观察应该是一系列“成功”或“失败”,而不是数据中的一系列“概率(频率)”。对于给定的分类数据集,您只能计算“响应=成功”或“响应=失败”的一个总频率,而不能计算一个总频率。在生成的数据中,根本没有分类变量,因此无法应用逻辑回归。现在您可以看到,尽管它们的外观相似,但logit-linear回归(如您所说的)只是使用转换后的响应(如sqr或sqrt转换)的普通线性REGRESSION问题(即,响应是一个数字变量),

通常,线性回归通过普通最小二乘(OLS)进行拟合,从而最大程度地减少了回归问题的平方损失;Logistic回归通过最大似然估计(MLE)进行拟合,从而最大程度地减少了分类问题的对数损失。这是有关损失函数损失函数Deva Ramanan的参考。 在第一个示例中,您将其p视为响应,并通过OLS拟合普通的线性回归模型。在第二个示例中,您告诉R您通过拟合逻辑回归模型family=binomial,因此R通过MLE拟合模型。如您所见,在第一个模型中,您将获得t检验和F检验,这是OLS的经典输出,适合于线性回归。在第二个模型中,系数的显着性检验基于z而不是t,这是MLE与logistic回归拟合的经典输出。


好的问题(+1)和好的答案(+1)。我学到新东西。
Aleksandr Blekh'3

1
我会同意的。但是logistic regression is a CLASSIFICATION problem,从某种意义上来说,只要它能够很好地分类,就可能会误解它。认为这是错误的,因为模型在理论上以及模型如何概率进行 “优化”时,有时可能会比不太好的模型分类更糟。
ttnphns

@ttnphns感谢您的评论!我认为如果响应是分类的,则将其称为分类问题是一种惯例。模型的性能是否良好很重要,但可能不会影响命名。
JellicleCat 2015年

感谢@JellicleCat-我知道这种类型的比例数据不适合逻辑回归,但对在何种情况下系数估计会与采用对数转换比例的OLS有所不同感到好奇。感谢您的示例-很明显,随着方差的增加,系数估计会出现差异。
jbaums 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.