我只是想用dnorm()重新计算lm模型(在R中)的logLik函数提供的对数似然率。
对于大量数据(例如n = 1000),它可以(几乎完美)工作:
> n <- 1000
> x <- 1:n
> set.seed(1)
> y <- 10 + 2*x + rnorm(n, 0, 2)
> mod <- glm(y ~ x, family = gaussian)
> logLik(mod)
'log Lik.' -2145.562 (df=3)
> sigma <- sqrt(summary(mod)$dispersion)
> sum(log(dnorm(x = y, mean = predict(mod), sd = sigma)))
[1] -2145.563
> sum(log(dnorm(x = resid(mod), mean = 0, sd = sigma)))
[1] -2145.563
但是对于小型数据集,存在明显的差异:
> n <- 5
> x <- 1:n
> set.seed(1)
> y <- 10 + 2*x + rnorm(n, 0, 2)
>
> mod <- glm(y ~ x, family = gaussian)
> logLik(mod)
'log Lik.' -8.915768 (df=3)
> sigma <- sqrt(summary(mod)$dispersion)
> sum(log(dnorm(x = y, mean = predict(mod), sd = sigma)))
[1] -9.192832
> sum(log(dnorm(x = resid(mod), mean = 0, sd = sigma)))
[1] -9.192832
由于数据集的影响较小,我认为这可能是由于lm和glm之间的残差方差估计值不同,但是使用lm提供的结果与glm相同:
> modlm <- lm(y ~ x)
> logLik(modlm)
'log Lik.' -8.915768 (df=3)
>
> sigma <- summary(modlm)$sigma
> sum(log(dnorm(x = y, mean = predict(modlm), sd = sigma)))
[1] -9.192832
> sum(log(dnorm(x = resid(modlm), mean = 0, sd = sigma)))
[1] -9.192832
我哪里错了?
感谢斯特凡(Stéphane)的更正,但仍无法正常工作
—
-Gilles
尝试查看源代码:
—
假定正常的2013年
stats:::logLik.glm
我这样做了,但是此功能只是将glm对象的aic插槽反转以找到对数似然性。而且我在glm函数中看不到有关aic的任何信息……
—
Gilles
我怀疑这与LogLik和AIC(在臀部绑在一起)有关,假设正在估计三个参数(斜率,截距和色散/残差标准误差),而色散/残差标准误差是在假定估计两个参数(斜率和截距)。
—
汤姆,
lm()
,您正在使用代替σ。