optim和glm之间的残差标准误差

16

我尝试使用optim拟合glm甚至nlsR函数的简单线性回归的结果来重现。
参数估计是相同的，但是残差方差估计和其他参数的标准误差并不相同，尤其是在样本量较小时。我想这是在最大似然法和最小二乘法之间计算剩余标准误差的方式上的差异（除以n或除以n-k + 1参见示例中的波纹管）。
我从网上阅读的书中了解到优化不是一项简单的任务，但我想知道是否有可能以简单的方式重现glm使用时的标准误差估计optim。

模拟小型数据集

set.seed(1)
n = 4 # very small sample size !
b0 <- 5
b1 <- 2
sigma <- 5
x <- runif(n, 1, 100)
y =  b0 + b1*x + rnorm(n, 0, sigma)

乐观估计

negLL <- function(beta, y, x) {
    b0 <- beta[1]
    b1 <- beta[2]
    sigma <- beta[3]
    yhat <- b0 + b1*x
    likelihood <- dnorm(y, yhat, sigma)
    return(-sum(log(likelihood)))
}

res <- optim(starting.values, negLL, y = y, x = x, hessian=TRUE)
estimates <- res$par     # Parameters estimates
se <- sqrt(diag(solve(res$hessian))) # Standard errors of the estimates
cbind(estimates,se)


    > cbind(estimates,se)
      estimates         se
b0     9.016513 5.70999880
b1     1.931119 0.09731153
sigma  4.717216 1.66753138

与glm和nls的比较

> m <- glm(y ~ x)
> summary(m)$coefficients
            Estimate Std. Error   t value    Pr(>|t|)
(Intercept) 9.016113  8.0759837  1.116411 0.380380963
x           1.931130  0.1376334 14.030973 0.005041162
> sqrt(summary(m)$dispersion) # residuals standard error
[1] 6.671833
> 
> summary(nls( y ~ b0 + b1*x, start=list(b0 = 5, b1= 2)))

Formula: y ~ b0 + b1 * x

Parameters:
   Estimate Std. Error t value Pr(>|t|)   
b0   9.0161     8.0760   1.116  0.38038   
b1   1.9311     0.1376  14.031  0.00504 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.672 on 2 degrees of freedom

我可以像这样重现不同的残留标准误差估计：

> # optim / Maximum Likelihood estimate
> sqrt(sum(resid(m)^2)/n)
[1] 4.717698
> 
> # Least squares estimate (glm and nls estimates)
> k <- 3 # number of parameters
> sqrt(sum(resid(m)^2)/(n-k+1))
[1] 6.671833

r maximum-likelihood optimization

— 吉尔斯
source

9

问题是标准错误来自

{\hat{σ}}^{2} （ X^{⊤} X ）^{- 1个}

$\hat\sigma^2 (X^\top X)^{-1}$

$\hat\sigma^2$ summary.lm

summary.lm
#R function (object, correlation = FALSE, symbolic.cor = FALSE, 
#R     ...) 
#R {
#R    z <- object
#R    p <- z$rank
#R    rdf <- z$df.residual
#R    ...
#R    Qr <- qr.lm(object) 
#R    ... 
#R    r <- z$residuals
#R    f <- z$fitted.values
#R    w <- z$weights
#R    if (is.null(w)) {
#R         mss <- if (attr(z$terms, "intercept")) 
#R             sum((f - mean(f))^2)
#R         else sum(f^2)
#R         rss <- sum(r^2)
#R    }
#R    ...
#R    resvar <- rss/rdf
#R    ...
#R    R <- chol2inv(Qr$qr[p1, p1, drop = FALSE])
#R    se <- sqrt(diag(R) * resvar)
#R    ...

$(\beta_0, \beta_1)$ $\hat\sigma^2$ $(\beta_0, \beta_1, \sigma)$ $\sigma$ $\sqrt{n/(n-3 + 1)}$

set.seed(1)
n = 4 # very small sample size !
b0 <- 5
b1 <- 2
sigma <- 5
x <- runif(n, 1, 100)
y =  b0 + b1*x + rnorm(n, 0, sigma) 

negLL <- function(beta, y, x) {
  b0 <- beta[1]
  b1 <- beta[2]
  sigma <- beta[3]
  yhat <- b0 + b1*x
  return(-sum(dnorm(y, yhat, sigma, log = TRUE)))
}

res <- optim(c(0, 0, 1), negLL, y = y, x = x, hessian=TRUE)
estimates <- res$par     # Parameters estimates
(se <- sqrt(diag(solve(res$hessian))))
#R [1] 5.690 0.097 1.653
k <- 3
se * sqrt(n / (n-k+1))
#R [1] 8.047 0.137 2.338

为了按照us11r的要求进行详细说明，对数似然是

升 （ \vec{β} ， σ ） = - \frac{ñ}{2} 日志 （ 2 π ） - ñ 日志 σ - \frac{1个}{2 σ^{2}} （ \vec{ÿ} - X \vec{β} ）^{⊤} （ \vec{ÿ} - X \vec{β} ）

$l(\vec{\beta},\sigma) = -\frac{n}{2}\log(2\pi) - n\log{\sigma} - \frac{1}{2\sigma^2}(\vec{y}-X\vec\beta)^\top(\vec{y}-X\vec\beta)$

$X$ $n$

- \nabla_{\vec{β}} \nabla_{\vec{β}}^{⊤} l (\vec{β}, σ) = \frac{1}{σ^{2}} X^{⊤} X

$-\nabla_{\vec{\beta}}\nabla_{\vec{\beta}}^\top l(\vec{\beta},\sigma) = \frac{1}{\sigma^2}X^\top X$

$\sigma$

m <- lm(y ~ x)
X <- cbind(1, x)
sqrt(sum(resid(m)^2)/n       * diag(solve(crossprod(X))))
#R                     x 
#R 5.71058285 0.09732149
k <- 3
sqrt(sum(resid(m)^2)/(n-k+1) * diag(solve(crossprod(X))))
#R                   x 
#R 8.0759837 0.1376334

我们可以做同样的QR分解为lm不

obj <- qr(X)
sqrt(sum(resid(m)^2)/(n-k+1) * diag(chol2inv(obj$qr)))
#R [1] 8.0759837 0.1376334

所以要回答

我从网上阅读的书中了解到优化不是一项简单的任务，但我想知道是否有可能以简单的方式重现glm使用时的标准误差估计optim。

那么您需要按使用的高斯示例来扩大标准误差。

— 本杰明·克里斯托弗森
source

1

+1。我不是100％完全正确，但这绝对是正确的方向。您能解释为什么您会期望这个因素吗？

— usεr11852恢复单胞菌说，

现在更清楚了吗？

— 本杰明·克里斯托弗森

1

是。好答案！（我已经对其进行了投票）

— us11r11说恢复Monic

1

optim $n$ $n-k+1$ $n$ $n-k+1$ sqrt(4.717216^2*4/2) = 6.671151

— 木瓜
source

1

感谢您的回复。我意识到我的问题还不够清楚（我已经对其进行了编辑）。我不仅要重现残差标准误差的计算结果，还要重现参数标准误差的大小……

— Gilles

@吉尔斯我不知道如何重现标准错误。差异的原因是：1. glm使用Fisher信息矩阵，而优化为hessian，并且2. glm将此视为2参数问题（找到b0和b1），而optim为3参数问题（b0，b1和sigma2）。。我不确定是否可以弥合这些差异。

— papgeo