简介:是否有任何统计理论支持使用(自由度基于残差)进行逻辑回归系数检验,而不是标准正态分布检验?
不久前,我发现在SAS PROC GLIMMIX中拟合逻辑回归模型时,在默认设置下,将使用分布而不是标准正态分布来测试逻辑回归系数。1即,GLIMMIX报告与所述比率的柱β 1 / √(我将称之为Ž在这一问题的其余部分),但也报道了“自由度”一栏,以及一个p基于假设-值吨分发ž与自由度基于剩余偏差-即自由度=观测总数减去参数数目。在此问题的底部,我提供了一些R和SAS代码和输出以进行演示和比较。2
这让我感到困惑,因为我认为对于逻辑回归等广义线性模型,在这种情况下没有统计理论支持的使用。相反,我以为我们对此案了解的是
- 是“近似”正态分布的;
- 对于小样本量,这种近似值可能会很差;
- 但是,不能像我们在正态回归的情况下那样假设具有t分布。
现在,在直觉上,对我来说似乎合理的是,如果近似正态分布,则实际上它可能具有某种基本呈“ t状”的分布,即使它不完全是t。因此,在这里使用t分布似乎并不疯狂。但是我想知道的是以下几点:
- 实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下确实遵循t分布?
- 如果没有这样的理论,那么至少有论文表明以这种方式假设分布与假设正态分布一样好甚至更好。
更笼统地说,除了直觉上基本上是明智的直觉之外,对GLIMMIX在这里所做的事情是否有任何实际的支持?
R代码:
summary(glm(y ~ x, data=dat, family=binomial))
R输出:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
SAS代码:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
SAS输出(已编辑/缩写):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
PROC LOGISTIC