线性回归系数的置信区间应基于正态分布还是

让我们有一些线性模型，例如简单的方差分析：

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

结果如下：

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16

现在，我尝试两种不同的方法来估计这些参数的置信区间

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

问题：

估计线性回归系数的分布是什么？正常还是？ $t$
为什么两种方法产生不同的结果？假设正态分布和正确的SE，我希望两种方法的结果相同。

非常感谢你！

数据〜0 +事实

答案后编辑：

答案是正确的，这将与confint(m1)！产生完全相同的结果。

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

r regression confidence-interval

— 好奇
source

相关：stats.stackexchange.com/questions/111559/…–

— 好奇的

（1）当误差是正态分布和它们的方差不已知的，则具有的零假设下-配送是真正的回归系数。在默认的是测试，所以-statistics报道有只是

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{\hat{\beta} - \beta_0}{{\rm se}(\hat{\beta})}$

t

$t$

β_{0}

$\beta_0$ R

β_{0} = 0

$\beta_0 = 0$

t

$t$

\frac{\hat{β}}{s e (\hat{β})}

$\frac{\hat{\beta}}{{\rm se}(\hat{\beta})}$

请注意，在某些规则性条件下，以上统计量始终是渐近正态分布的，而不管误差是否是正态的或误差方差是否已知。

（2）得到不同结果的原因是正态分布的百分位数与分布的百分位数不同。因此，您在标准误差前面使用的乘数是不同的，从而提供不同的置信区间。 $t$

具体来说，回想一下使用正态分布的置信区间为

\hat{β} \pm z_{α / 2} \cdot s e (\hat{β})

$\hat{\beta} \pm z_{\alpha/2} \cdot {\rm se}(\hat{\beta})$

其中是的正态分布的位数。在一个标准的情况下的置信区间，和。基于的置信区间为 $z_{\alpha/2}$ $\alpha/2$ $95\%$ $\alpha = .05$ $z_{\alpha/2} \approx 1.96$ $t$

\hat{β} \pm t_{α / 2, n - p} \cdot s e (\hat{β})

$\hat{\beta} \pm t_{\alpha/2,n-p} \cdot {\rm se}(\hat{\beta})$

其中乘法器是基于的位数与-配送 $t_{\alpha/2,n-p}$ $t$ 自由度，其中的度为样本大小和是预测的数目。当是大的，和是大致相同的。 $n-p$ $n$ $p$ $n$ $t_{\alpha/2,n-p}$ $z_{\alpha/2}$

$t$ $5$ $300$ $p=1$ $t$ $z$

在此处输入图片说明

— 巨集
source

是的！做得好！！（+1）

— gui11aume12年

宏，谢谢您的回答。但是：您谈论的是T统计量的分布，而我询问的是回归系数的分布。我的理解是，回归系数是以其均值（系数估计值）及其标准误差为特征的分布。我问这个分布，而不是测试统计分布。我可能会错过一些东西，所以请尝试以更明显的方式进行解释：）谢谢

— 好奇的2012年

具有

-配送。因此，在零假设下

具有一

-配送被位移和缩放（通过

和

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{ {\hat \beta}−β_{0}}{{\rm se}(\hat β)}$

t

$t$

\hat{β}

$\hat β$

t

$t$

β_{0}

$β_0$

s e (\hat{β})

${\rm se}(\hat β)$

\hat{β}

$\hat β$

你说得对！即使样本量很小，其结果也将与完全相同confint(m1)！cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

— 2012年

与通常的假设需要获得正常的理论推断线性回归

（等

\hat{β}

$\hat{\beta}$

\hat{β} - β_{0}

$\hat{\beta}-\beta_0$

β_{0}

$\beta_0$

t

$t$