线性回归系数的置信区间应基于正态分布还是


18

让我们有一些线性模型,例如简单的方差分析:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

结果如下:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

现在,我尝试两种不同的方法来估计这些参数的置信区间

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

问题:

  1. 估计线性回归系数的分布是什么?正常还是Ť
  2. 为什么两种方法产生不同的结果?假设正态分布和正确的SE,我希望两种方法的结果相同。

非常感谢你!

数据〜0 +事实

答案后编辑

答案是正确的,这将与confint(m1)!产生完全相同的结果。

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

Answers:


19

(1)当误差是正态分布和它们的方差已知的,则β - β 0具有的零假设下-配送β0是真正的回归系数。在默认的是测试β0=0,所以-statistics报道有只是 β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

请注意,在某些规则性条件下,以上统计量始终是渐近正态分布的,而不管误差是否是正态的或误差方差是否已知。

(2)得到不同结果的原因是正态分布的百分位数与分布的百分位数不同。因此,您在标准误差前面使用的乘数是不同的,从而提供不同的置信区间。t

具体来说,回想一下使用正态分布的置信区间为

β^±zα/2se(β^)

其中α / 2的正态分布的位数。在一个标准的情况下95的置信区间, α=0.05 ž α / 21.96。基于t分布的置信区间为zα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

其中乘法器是基于的位数与-配送Ñtα/2,npt自由度,其中的度 Ñ为样本大小和 p是预测的数目。当 Ñ是大的,α / 2 Ñ - p ž α / 2是大致相同的。npnpntα/2,npzα/2

t5300p=1tz

在此处输入图片说明


是的!做得好!!(+1)
gui11aume12年

宏,谢谢您的回答。但是:您谈论的是T统计量的分布,而我询问的是回归系数的分布。我的理解是,回归系数是以其均值(系数估计值)及其标准误差为特征的分布。我问这个分布,而不是测试统计分布。我可能会错过一些东西,所以请尝试以更明显的方式进行解释:)谢谢
好奇的2012年

2
具有-配送。因此,在零假设下β具有一-配送被位移和缩放(通过β0小号È β
β^β0se(β^)
tβ^tβ0se(β^)β^

你说得对!即使样本量很小,其结果也将与完全相同confint(m1)cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
2012年

与通常的假设需要获得正常的理论推断线性回归β(等β - ββ^β^β0β0t
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.