逻辑回归的Wald检验


55

据我所知,逻辑回归中的Wald检验用于确定某个预测变量X是否显着。它拒绝了相应系数为零的零假设。

该测试包括将系数的值除以标准误差σ

我感到困惑的是X/σ也称为Z分数,它表示给定观察值从正态分布(均值为零)出现的可能性。



2
也许这可能是另一回事,因为这方面的答案更加完善。
Firebug

Answers:


86

通过最大似然估计(MLE)可以找到逻辑回归(以及所有GLM)中系数和截距的估计。这些估计被标帽子过来的参数,像θ。我们感兴趣的参数表示θ 0,这通常是0,因为我们要测试的系数是否为0或没有不同。从MLE的渐近理论,我们知道的区别θθ 0将约为均值为0分布(详细信息可以在任何数理统计书中找到,如拉里·沃瑟曼的所有统计数据中)。回想一下,标准错误无非就是θ^θ0θ^θ0统计量的标准偏差(Sokal和Rohlf在其《生物统计学》一书中写道:“ 统计量是许多计算或估计的统计量中的任何一个”,例如均值,中位数,标准差,相关系数,回归系数等)。用均值为0和标准偏差的正态分布除以其标准偏差将得到均值为0和标准偏差为1的标准正态分布。Wald统计量定义为(例如Wasserman(2006):所有统计信息,第153、214页) -215): w ^ = β - β 0σw ^2=β-β02

w ^=β^-β0SE^β^ñ01个
的第二种形式源于以下事实:标准正态分布的平方是χ21-配送与1个自由度(两个平方的和标准正态分布将是一个χ22-具有2个自由度的分布,依此类推。
w ^2=β^-β02Var^β^χ1个2
χ1个2χ22

因为感兴趣的参数通常为0(即,),Wald统计简化为 W ^ = ββ0=0 这是你所描述的:所述系数通过它的标准误差除以估计。

w ^=β^SE^β^ñ01个

什么时候使用以及何时使用t值?žŤ

值或t值之间的选择取决于如何计算系数的标准误差。因为Wald统计量作为标准正态分布渐近分布,所以我们可以使用z -score来计算p值。当我们除了系数之外,还必须估计残差时,使用t值代替z值。在普通最小二乘(OLS,正常的线性回归),系数的方差-协方差矩阵是无功[ β | X ] = σ 2X 'žŤžpŤž其中, σ 2是残差的方差(这是未知的,并且必须被从数据中估计)和 X设计矩阵在OLS中,系数的标准误差是方差-协方差矩阵的对角元素的平方根。因为我们不知道 σ 2,我们有一个由它估计来取代它 σ 2 = 小号2,所以: ^ SE^ β Ĵ= Var[β^|X]=σ2XX-1个σ2Xσ2σ^2=s2。现在,这很重要:因为我们必须估计残差的方差才能计算系数的标准误差,所以我们需要使用t值和t分布SE^βĴ^=s2XXĴĴ-1个ŤŤ

ÿ一世ññpËÿ=ñpVarÿ=ñp1个-pϕϕ=1个ϕ<1个ϕ>1个žŤp值。在中R,请看以下两个示例:

逻辑回归

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

ž


正态线性回归(OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

ŤžŤ

另一个相关的帖子可以在这里找到。


1
非常感谢您提供这篇不错的帖子,它回答了我所有的问题。
user695652

1
因此,实际上,关于您的出色答案的第一部分:如果出于某种原因,我将比值比和Wald统计量作为输出,则我可以根据这些结果计算标准误差:SE =(1 / Wald-统计信息)* ln(OR)这是正确的吗?谢谢!
桑德·范德兰

1
@ SanderW.vanderLaan感谢您的评论。是的,我相信这是正确的。如果执行逻辑回归,则Wald统计量将为z值。
COOLSerdash

2
很好的答案!!我确实有一些修订建议:我个人认为此答案是将详细信息与打孔列表混在一起。我将把线性回归如何使用残差方差的细节放在单独的图中。
海涛杜

1
对于分散参数和与R代码的连接,也许我们可以打开另一个部分或分隔线来谈论。
海涛杜
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.