Answers:
探索此问题的一种方法是尝试使用不同的工具拟合相同的模型,这是一个示例:
> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)
Call:
lm(formula = Sepal.Length ~ ., data = iris)
Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673, Adjusted R-squared: 0.8627
F-statistic: 188.3 on 5 and 144 DF, p-value: < 2.2e-16
> summary(fit2)
Call:
glm(formula = Sepal.Length ~ ., data = iris)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.09414226)
Null deviance: 102.168 on 149 degrees of freedom
Residual deviance: 13.556 on 144 degrees of freedom
AIC: 79.116
Number of Fisher Scoring iterations: 2
> sqrt( 0.09414226 )
[1] 0.3068261
因此,您可以看到线性模型的残差标准误差只是glm色散的平方根,换句话说,色散(对于高斯模型)与均方差相同。
让我们推测一下您的数据中没有协变量信息的简单情况。假设您只有观测值。
如果您使用正态分布来建模数据,则可能会这样写
,
然后尝试通过最大似然估计来估计和。σ
但是,假设您的数据是计数数据,因此不是正态分布的。这种情况甚至都不是连续的,因此您可以使用泊松分布:
。
但是,这里只有一个参数!单个参数通过和确定均值和方差。当您使用伯努利分布或二项分布时,也会发生这种情况。但是,您的数据可能会有较大或较小的方差,这可能是因为观察结果并不是真正的iid,或者您选择的分布不够真实。ë [ ÿ 我 ] = λ V 一- [R [ ÿ 我 ] = λ
因此,人们可以添加弥散参数,以在建模均值和方差的同时获得额外的自由度。我想关于GLM的任何教科书都可以为您提供更详细的数学解释,但是我相信这样做的动机非常简单。