使用


12

简介:是否有任何统计理论支持使用(自由度基于残差)进行逻辑回归系数检验,而不是标准正态分布检验?t


不久前,我发现在SAS PROC GLIMMIX中拟合逻辑回归模型时,在默认设置下,将使用分布而不是标准正态分布来测试逻辑回归系数。1即,GLIMMIX报告与所述比率的柱β 1 / t1(我将称之为Ž在这一问题的其余部分),但也报道了“自由度”一栏,以及一个p基于假设-值分发ž与自由度基于剩余偏差-即自由度=观测总数减去参数数目。在此问题的底部,我提供了一些R和SAS代码和输出以进行演示和比较。2β^1/var(β^1)zptz2

这让我感到困惑,因为我认为对于逻辑回归等广义线性模型,在这种情况下没有统计理论支持的使用。相反,我以为我们对此案了解的是t

  • 是“近似”正态分布的;z
  • 对于小样本量,这种近似值可能会很差;
  • 但是,不能像我们在正态回归的情况下那样假设具有t分布。zt

现在,在直觉上,对我来说似乎合理的是,如果近似正态分布,则实际上它可能具有某种基本呈“ t状”的分布,即使它不完全是t。因此,在这里使用t分布似乎并不疯狂。但是我想知道的是以下几点:zttt

  1. 实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下确实遵循t分布?zt
  2. 如果没有这样的理论,那么至少有论文表明以这种方式假设分布与假设正态分布一样好甚至更好。t

更笼统地说,除了直觉上基本上是明智的直觉之外,对GLIMMIX在这里所做的事情是否有任何实际的支持?

R代码:

summary(glm(y ~ x, data=dat, family=binomial))

R输出:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

SAS代码:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

SAS输出(已编辑/缩写):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1

2n


PROC LOGISTICz

1
SPSS似乎以相同的方式测试逻辑混合效应模型:(
理查德·博德

Answers:


6

事实上,是否存在统计理论表明在逻辑回归和/或其他广义线性模型的情况下z确实遵循分布?

据我所知,尚无此类理论。我经常看到一些麻烦的争论,偶尔还会通过仿真实验来为某些特定的GLM系列或其他系列支持这种方法。模拟比手工波浪的论点更具说服力。

如果没有这样的理论,是否至少有论文表明以这种方式进行分布假设与假设正态分布一样好甚至更好?

我不记得有看到过,但这没说太多。

我自己的(有限的)小样本模拟表明,假设逻辑情况下的t分布可能比假设正态条件差得多:

在此处输入图片说明

例如,此处是在15个等距x观测值(人口参数均为零)下进行普通logistic回归(即固定效果,未混合)的Wald统计量的10000个模拟结果(作为QQ图)。红线是y = x线。如您所见,在每种情况下,法线在中间的一个很好的范围内都是一个很好的近似值-大约是第5个和第95个百分位(1.6-1.7 ish),然后,检验统计量的实际分布是尾巴比正常尾巴轻得多。

因此,对于逻辑情况,我想说在此基础上使用t-而不是z-的任何论点似乎都不大可能成功,因为类似这样的模拟倾向于表明结果可能倾向于轻尾。正常的一面,而不是较重的尾巴。

[但是,我建议您不要只相信我的模拟,而要提防警告,请尝试一些您自己的模拟,也许是为了更能代表您自己的IV和模型典型情况的情况(当然,您需要模拟如果某些null为true,以查看在null下使用哪种分布)。我很想听听它们如何为您而来。]


1
t

4

这里还有一些其他的模拟,只是为了扩展Glen_b已经介绍的内容。

[1,1]N=10,20,40,80p=0.5,0.731,0.881,0.952

ztdf=N2z=0p=1QQsim

ptpp历史记录

t


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.