如何使用family = Gamma解释GLM中的参数


21

我对带有伽玛分布因变量的GLM的参数解释有疑问。这是R通过日志链接返回给我的GLM的结果:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

如何解释参数?如果我计算exp(coef())模型,则截距约为500。现在我相信,如果所有其他变量都保持不变,这并不意味着预期收入吗?由于平均值mean(age)约为2000。因此,我不知道如何解释协变量系数的方向和值。


6
如果所有其他变量都恰好为零(不仅仅是常数),则500接近预期收入-就像回归中一样。
Glen_b-恢复莫妮卡2014年

@Glen_b当解释变量发生变化时,为什么系数的指数是对收入的乘法效应,为什么会有预期的收入?
榻榻米

正在讨论的情况是有条件的意思是,当所有解释变量为0
Glen_b -Reinstate莫妮卡

Answers:


25

对数链接的伽马GLM规范与指数回归相同:

E[y|x,z]=exp(α+βx+γz)=y^

这意味着。那不是一个非常有意义的值(除非您事先将变量居中设置为均值零)。E[y|x=0,z=0]=exp(α)

至少有三种方法来解释模型。之一就是采取衍生物的预期值的给出相对于:X Xyxx

E[y|x,z]x=exp(α+βx+γz)β=y^β

这个数量取决于和,这样你就可以在平均评价这一/中位数/模或代表值和,或取平均的在你的样品。这些都称为边际效应。这些导数仅对连续变量(如高度)有意义,并告诉您上的微小变化的累加效应。xžXžÿ^βXÿ

如果是二进制的(如性别),则可以考虑计算有限差分: X

Ë[ÿ|žX=1个]-Ë[ÿ|žX=0]=经验值α+β+γž-经验值α+γž=经验值α+γž经验值β-1个

因为很难想象性别会发生无限微小的变化,所以这更有意义。当然,您也可以使用连续变量来执行此操作。这些是单位变化而不是微小单位变化的累加效应。X

第三种方法是对系数求幂。注意:

Ë[ÿ|žX+1个]=经验值α+βX+1个+γž=经验值α+βX+β+γž=经验值α+βX+γž经验值β=Ë[ÿ|žX]经验值β

这意味着您可以乘法而不是加法解释指数系数。当改变1 时,它们会为您提供期望值的乘数。X


1
您能举例说明第二种解释吗?
榻榻米

@tatami我修复了二进制情况下的一个错误。现在更有意义了吗?
Dimitriy V. Masterov

2

首先,我将看一下残差以了解模型的拟合程度。如果可以,我将尝试使用其他链接函数,除非我有理由相信它确实来自伽玛分布。如果伽玛看起来仍然令人信服,那么我可以得出结论,统计学上有意义的术语是截距,身高,学历,性别和高中(标有三颗星的那些)。除非标准化(范围相同),否则他们之间不能说更多。

对评论的回应:我现在更好地理解了你的问题。您绝对可以做到!单位高度的增加会导致收入的相对变化(exp(0.0082530)-1〜= 0.0082530(使用exp x = 1 + x对小x的近似值)。很容易解释,不是吗?


1
因此,我实际上无法解释参数,例如,如果高度增加1,则收入增加xy?

1
我相信现在我必须对它进行乘法解释:exp(Intercept)* exp(height)将是高度增加1个单位的收入。不过还是谢谢你!:)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.