是否应使用自由度校正来推断GLM参数?


11

这个问题是受到马丁(Martijn)在这里的回答的启发。

假设我们为一个像二项式或泊松模型这样的单参数系列拟合了GLM,并且它是一个完全似然过程(相对于拟泊松模型)。然后,方差是平均值的函数。对于二项式:和Poisson。变种[X]=Ë[X]Ë[1个-X]变种[X]=Ë[X]

与线性回归时残差呈正态分布的情况不同,这些系数的有限精确采样分布是未知的,它可能是结果和协变量的复杂组合。此外,使用GLM的均值估算,可以用作结果方差的插件估算值。

但是,像线性回归一样,系数具有渐近正态分布,因此在有限样本推论中,我们可以用正态曲线近似其采样分布。

我的问题是:通过对有限样本中系数的样本分布使用T分布近似值,我们可以获得任何收益吗?一方面,我们知道方差,但我们不知道确切的分布,所以当引导程序或折刀估计器可以适当地解决这些差异时,T近似似乎是错误的选择。另一方面,在实践中,也许只偏爱保守的T分布。


1
好问题。您可能需要查看Bartlett校正
本·博克

1
我认为这个问题是不恰当的,当使用MLE或QMLE时,您仅具有渐近合理的估计和推断。询问假设A或B在有限的条件下是否更好,将无法回答,它总是会变得平凡,“取决于数据和您愿意做出的假设”。我个人很喜欢引导程序,并在可能的情况下使用它,但是使用基于标准z或t的测试并没有多大错-它不允许您逃避小数据问题,因此您仍在做出假设(只是不同的假设) )
Repmat

Answers:


3

简短答案:尚不完整的答案,但是您可能会对与链接问题有关的以下分布感兴趣:它比较z检验(也由glm使用)和t检验

    layout(matrix(1:2,1,byrow=TRUE))

    # trying all 100 possible outcomes if the true value is p=0.7
    px <- dbinom(0:100,100,0.7)
    p_model = rep(0,101)
    p_model2 = rep(0,101)
    for (i in 0:100) {
      xi = c(rep(1,i),rep(0,100-i))
      model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
      p_model[i+1] = 1-summary(model)$coefficients[4]
      model2 <- glm(xi ~ 1, family = "binomial")
      coef <- summary(model2)$coefficients
      p_model2[i+1] = 1-2*pt(-abs((qlogis(0.7)-coef[1])/coef[2]),99,ncp=0)
    }


    # plotting cumulative distribution of outcomes z-test
    outcomes <- p_model[order(p_model)]
    cdf <- cumsum(px[order(p_model)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
    #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with z-test \n as function of set alpha level")


    # plotting cumulative distribution of outcomes t-test
    outcomes <- p_model2[order(p_model2)]
    cdf <- cumsum(px[order(p_model2)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
      #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with t-test \n as function of set alpha level")
    [![p-test vs t-test][1]][1]

而且只有很小的差异。而且z检验实际上更好(但这可能是因为t检验和z检验都是“错误的”,并且z检验的误差可能补偿了该误差)。

在此处输入图片说明

长答案: ...

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.