logistic回归和分数响应回归之间有什么区别?


13

据我所知,逻辑模型和分数响应模型(frm)之间的区别在于,因变量(Y)其中frm为[0,1],而logistic为{0,1}。此外,frm使用拟似然估计器确定其参数。

通常,我们可以使用glm来获得逻辑模型glm(y ~ x1+x2, data = dat, family = binomial(logit))

对于frm,我们更改family = binomial(logit)family = quasibinomial(logit)

我注意到我们也可以family = binomial(logit)用来获取frm的参数,因为它给出了相同的估计值。请参阅以下示例

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

返回,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

而对于family = quasibinomial('logit')

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

返回,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

两者的估计Beta family值相同,但不同之处在于SE值。但是,要获得正确的SE,我们必须使用library(sandwich)本文中

现在,我的问题是:

  1. 这两个代码有什么区别?
  2. frm是否即将获得强大的SE?

如果我的理解不正确,请提出一些建议。

Answers:


11

如果您的问题是:这两个代码有什么区别?

一看?glmSee family for details of family functions,一看?family揭示了如下描述:

准二项式和拟泊松族与二项式和泊松族的不同之处仅在于,色散参数未固定为1,因此可以对过度色散进行建模。

这也是您在输出中看到的。这就是两种型号/代码之间的差异。

如果您的问题是:逻辑回归和分数响应回归之间有什么区别?

如您所正确识别的,如果因变量为0或1,则该模型为对数模型。Papke和Wooldridge已证明您可以将这种形式的GLM用于分数以及参数的估计,但是您需要计算可靠的标准误差。Logistic回归不需要这样做,实际上,有些人认为您不应该在Probit / Logit模型中计算可靠的标准误差。虽然这是另一回事。

理论基础来自Gourieroux,Monfort和Trognon的著名论文他们在1984年的Econometrica中获得了证明。他们表明(在某些规律性条件下)通过最大化属于线性指数族的似然性而获得的最大似然参数是对属于线性指数族中任何其他似然性的参数的一致估计。因此,从某种意义上讲,即使不是完全正确的逻辑分布,我们仍在这里使用它,但是参数对于我们希望获得的参数仍然是一致的。因此,如果您的问题源于我们正在使用完全相同的似然函数来估计逻辑模型和分数响应模型的观察结果,只是我们交换了因变量的性质,那么这就是直觉。


我们如何衡量frm的表现?我们可以像线性回归一样使用MSE吗?
新手,2016年

1
这是一个非常不同的问题。请将其发布为新的。
coffeinjunky
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.