摘要.glm()中的分散


13

我进行了glm.nb

glm1<-glm.nb(x~factor(group))

其中group为类别,x为度量变量。当我尝试获取结果摘要时,根据是否使用summary()或,我会得到略有不同的结果summary.glmsummary(glm1)给我

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

而summary.glm(glm1)给了我

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

我了解分散参数的含义,但不了解该行的含义

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

它在手册中说,这将是估计的离散度,但似乎是一个错误的估计,因为0.95不能接近0.7109,还是估计的离散度与估计的离散度参数有所不同?我猜想,我必须将的色散设置summary.nb(x, dispersion=)为某种值,但是我不确定,如果我必须将色散设置为1(得出的结果与summary()是否应该插入色散参数的估计值相同,在这种情况下导致summary.nb(glm1, dispersion=0.7109)或其他原因吗summary(glm1)


3
使用summary()可以为类negbin调度到适当的S3方法。色散当然必须为1,估计的是theta,最好将其称为形状参数以避免混淆。另请参阅stats.stackexchange.com/questions/27773/how-does-glm-nb-work/…–
Momo

Answers:


13

首先,您不应summary.glm在class对象上使用"negbin"。如果您查看的功能代码summary.glm,则在顶部,您将看到的计算dispersion。请注意,summary.glm 了解可以拟合的模型,glm因此它会选择二项式和泊松族进行特殊处理,其中色散参数被假定等于1。对于其他模型,是根据以下公式计算的模型对象,但请注意,这是基于这样的假设,即它适用于二项式或Poisson 的家庭。在对模型拟合的IS 。因此,当您使用φϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glm在由glm.nb,in代码拟合的模型上

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

测试为"poisson""binomial"出现故障,且然后计算其中在实际上假设预设用于这个家族(根据定义为等于1 。ϕsummary.negbin

这样做没有问题,只是调用正确的方法并通过arguments 为提供不同的值只是简单得多。ϕdispersion

其次,您会误解输出。当你看到

Negative Binomial(0.7109)

正如我上文提到的,括号中的数字是,即负二项分布的参数。该值是拟合期间估计的值。它不是,分散参数,因此两个数字不必相等。他们只是两个数字。 φθ^ϕ

由于计算出的色散(遵循上面引用的代码)非常接近于1(〜0.95),因此假设用于标准误差的假设在中并不是太差。你当然可以做φ = 1ϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

并获得该negbin方法提供给您的其他输出,以及的计算值而不是假定值。ϕ


5
+1不错的解释。我有两个小评论:根据指数族的定义,二项式,泊松和具有已知形状参数的负二项式的色散参数为1(这不是假设)。当您说可以估计另一种离差并将其提供给汇总方法时,则必须小心,因为一个人会冒险进入准领土,这对可能性尤其有影响。
Momo 2013年

@Momo好说。在您陈述的内容和各个功能的帮助页面的详细信息之间,我感到非常困惑。
恢复莫妮卡-G.辛普森

2

来自Venables&Ripley(2002),《现代应用统计》中的S:“ Theta”定义了形状为&scale的伽玛分布,因此均值为和方差。令为具有这种分布的随机变量;响应有条件地分布在上的Poisson上,均值,其中是预测变量和系数的函数,具体取决于您对链接的选择。边际上,它的分布是负二项式,具有质量函数1θ 111θ1 ËÿËμËμ1θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

期望

EY=μ

&方差

VarY=μ+μ2θ

正如@Momo所指出的,色散参数完全是另一回事,您可以对其进行变化以进行准似然估计。对于负二项式模型和(真实)泊松模型,将其正确地固定为一个值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.