Answers:
通过最大似然估计(MLE)可以找到逻辑回归(以及所有GLM)中系数和截距的估计。这些估计被标帽子过来的参数,像θ。我们感兴趣的参数表示θ 0,这通常是0,因为我们要测试的系数是否为0或没有不同。从MLE的渐近理论,我们知道的区别θ和θ 0将约为均值为0分布(详细信息可以在任何数理统计书中找到,如拉里·沃瑟曼的所有统计数据中)。回想一下,标准错误无非就是统计量的标准偏差(Sokal和Rohlf在其《生物统计学》一书中写道:“ 统计量是许多计算或估计的统计量中的任何一个”,例如均值,中位数,标准差,相关系数,回归系数等)。用均值为0和标准偏差的正态分布除以其标准偏差将得到均值为0和标准偏差为1的标准正态分布。Wald统计量定义为(例如Wasserman(2006):所有统计信息,第153、214页) -215): w ^ = (β - β 0) 或 w ^2=(β-β0)2
因为感兴趣的参数通常为0(即,),Wald统计简化为 W ^ = β 这是你所描述的:所述系数通过它的标准误差除以估计。
什么时候使用以及何时使用t值?
在值或t值之间的选择取决于如何计算系数的标准误差。因为Wald统计量作为标准正态分布渐近分布,所以我们可以使用z -score来计算p值。当我们除了系数之外,还必须估计残差时,使用t值代替z值。在普通最小二乘(OLS,正常的线性回归),系数的方差-协方差矩阵是无功[ β | X ] = σ 2(X '其中, σ 2是残差的方差(这是未知的,并且必须被从数据中估计)和 X是设计矩阵。在OLS中,系数的标准误差是方差-协方差矩阵的对角元素的平方根。因为我们不知道 σ 2,我们有一个由它估计来取代它 σ 2 = 小号2,所以: ^ SE(^ β Ĵ)= √。现在,这很重要:因为我们必须估计残差的方差才能计算系数的标准误差,所以我们需要使用t值和t分布。
值。在中R
,请看以下两个示例:
逻辑回归
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979 1.139951 -3.500 0.000465 ***
gre 0.002264 0.001094 2.070 0.038465 *
gpa 0.804038 0.331819 2.423 0.015388 *
rank2 -0.675443 0.316490 -2.134 0.032829 *
rank3 -1.340204 0.345306 -3.881 0.000104 ***
rank4 -1.551464 0.417832 -3.713 0.000205 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
正态线性回归(OLS)
summary(lm(Fertility~., data=swiss))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
另一个相关的帖子可以在这里找到。