通过逻辑回归和对数线性回归估计的系数何时有所不同？

在对连续比例建模时（例如，在调查样方上的比例植被覆盖，或从事某项活动的时间比例），逻辑回归被认为是不合适的（例如，Warton＆Hui（2011）反正弦是精氨酸：生态学中比例的分析）。相反，对数转换比例后的OLS回归或beta回归更为合适。

使用R lm和时，在什么条件下对数线性回归和对数回归的系数估计不同glm？

以下面的模拟数据集为例，我们可以假定它们p是我们的原始数据（即连续比例，而不是表示）： ${n_{successes}\over n_{trials}}$

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

在此处输入图片说明

拟合对数线性模型，我们获得：

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Logistic回归结果：

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

Logistic回归系数估计是否始终相对于logit-linear模型的估计无偏？

r regression logistic

— 鲍姆斯
source

请注意一个理论上的区别：将二项式模型应用于比例，您假设每个比例后面的试验都是独立的，也就是说，在比例后面的0.1“有”，例如10个独立试验获得了成功。对于线性模型，0.1只是一个值，一些任意度量。

— ttnphns

对于以OP的方式将二项式模型应用于比例到底有多有意义，我有些怀疑。毕竟，这family=binomial意味着因变量表示二项式计数-而不是比例。怎么会glm知道这0.1就像“十分之一”而不是“十分之十”？尽管比例本身没有差异，但这对标准误差的计算方式有重大影响。

— Wolfgang'3

@Wolfgang-我意识到（并在我的帖子中提到）用logistic回归对这种连续比例建模是不合适的。我对系数的点估计是否/何时/如何不同感兴趣。

— jbaums 2015年

@Wolfgang，您是对的，但这取决于实现方式。一些程序将允许输入比例作为DV和1来代替基准，而数据集由实际基准加权。因此，看起来好像您在分析比例，而不是计数。

— ttnphns 2015年

@ttnphns同样，在R中，可以输入比例作为DV，并向weightsarg 提供一个包含试验次数的向量（尽管这不是我在帖子中尝试的内容，因为我故意不正确地分析数据）。

— jbaums 2015年

Answers:

也许可以用“反向”方式来回答-即它们何时相同？

现在，逻辑回归中使用的IRLS算法在这里提供了一些见解。收敛时，您可以将模型系数表示为：

{\hat{β}}_{升 Ø G 一世 s Ť 一世 C} = {（ X^{Ť} w ^X ）}^{- 1个} X^{Ť} w ^ž

$\hat {\beta}_{logistic}=\left (X^TWX\right)^{-1} X^TWz$

$W$ $W_{ii}=n_ip_i (1-p_i)$ $z$ $z_i=x_i^T\hat {\beta}_{logistic} +\frac {y_i -n_ip_i}{n_ip_i (1-p_i)}$ $var (z_i -x_i^T\hat {\beta})=W_{ii}^{-1}$ $z$ $\beta$ $z$

$\log (y)-\log (n-y)$ $y (1-y/n)$ $y$ $n$ lm ()

— 概率逻辑
source

令人印象深刻。您能否使用给定的模拟数据通过R代码显示最后一句话？谢谢！

— JellicleCat 2015年

如果我错了，请不要犹豫指出。

首先，我这么说，在第二种情况下，您glm打错电话了！要通过来拟合逻辑回归glm，响应应该是（二进制）分类变量，但是您使用p，数字变量！我不得不说warning太温柔了，无法让用户知道他们的错误...

而且，正如您可能期望的那样，通过COINCIDENCE的两个拟合，您可以获得相似的系数估计。如果将替换logit.p <- a + b*x + rnorm(1000, 0, 0.2)为logit.p <- a + b*x + rnorm(1000, 0, 0.7)，0.2即将误差项的方差从更改为0.7，则两次拟合的结果将有很大的不同，尽管第二个拟合（glm）完全没有意义...

逻辑回归用于（二进制）分类，因此您应该具有分类响应，如上所述。例如，对响应的观察应该是一系列“成功”或“失败”，而不是数据中的一系列“概率（频率）”。对于给定的分类数据集，您只能计算“响应=成功”或“响应=失败”的一个总频率，而不能计算一个总频率。在生成的数据中，根本没有分类变量，因此无法应用逻辑回归。现在您可以看到，尽管它们的外观相似，但logit-linear回归（如您所说的）只是使用转换后的响应（如sqr或sqrt转换）的普通线性REGRESSION问题（即，响应是一个数字变量），

通常，线性回归通过普通最小二乘（OLS）进行拟合，从而最大程度地减少了回归问题的平方损失；Logistic回归通过最大似然估计（MLE）进行拟合，从而最大程度地减少了分类问题的对数损失。这是有关损失函数损失函数Deva Ramanan的参考。在第一个示例中，您将其p视为响应，并通过OLS拟合普通的线性回归模型。在第二个示例中，您告诉R您通过拟合逻辑回归模型family=binomial，因此R通过MLE拟合模型。如您所见，在第一个模型中，您将获得t检验和F检验，这是OLS的经典输出，适合于线性回归。在第二个模型中，系数的显着性检验基于z而不是t，这是MLE与logistic回归拟合的经典输出。

— JellicleCat
source

好的问题（+1）和好的答案（+1）。我学到新东西。

— Aleksandr Blekh'3

我会同意的。但是logistic regression is a CLASSIFICATION problem，从某种意义上来说，只要它能够很好地分类，就可能会误解它。认为这是错误的，因为模型在理论上以及模型如何对概率进行 “优化”时，有时可能会比不太好的模型分类更糟。

— ttnphns

@ttnphns感谢您的评论！我认为如果响应是分类的，则将其称为分类问题是一种惯例。模型的性能是否良好很重要，但可能不会影响命名。

— JellicleCat 2015年

感谢@JellicleCat-我知道这种类型的比例数据不适合逻辑回归，但对在何种情况下系数估计会与采用对数转换比例的OLS有所不同感到好奇。感谢您的示例-很明显，随着方差的增加，系数估计会出现差异。

— jbaums 2015年