为什么在嵌套的var-covar模型中进行选择时必须使用REML(而不是ML)?


16

关于线性混合模型随机效应的模型选择的各种描述指示使用REML。我在某种程度上知道REML和ML之间的区别,但是我不明白为什么要使用REML,因为ML有偏见。例如,使用ML对正态分布模型的方差参数进行LRT是否错误(请参见下面的代码)?我不明白为什么在模型选择中,没有偏见比成为ML更重要。我认为最终的答案必须是“因为REML的模型选择比ML的模型选择更好”,但我想知道的更多。我没有阅读LRT和AIC的派生词(我不足以全面了解它们),但是如果在派生词中明确使用REML,只是知道实际上就足够了(例如,

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value

1
关于REML和AIC,您应该看看这个问题
猫王2015年

Answers:


13

一个很简短的答案:REML是ML,因此基于REML的测试还是正确的。由于使用REML估计方差参数更好,因此很自然地使用它。

为什么REML是ML?考虑例如一个模型 X [R Ñ × pž [R Ñ × q,和β [R p是固定效应向量,û Ñ0 τ 。受限制的可能性可以通过考虑获得ñ - p。对比为“删除”的固定效应更精确地,让ç ř

Y=Xβ+Zu+e
XRn×pZRn×qβRp是随机效应的矢量,和 ë ñ0 σ 2 ñuN(0,τIq)eN(0,σ2In)np,使得ÇX=0C ^ C ^ ' =ñ - p(即,列 Ç '是向量空间orthognal到的正交基X)的列产生的空间; 则CY=CZu+CR(np)×nCX=0CC=InpCX ε Ñ0 σ 2 Ñ - p,以及用于可能性 τ σ 2给出 ç ý是受限制的可能性。
CY=CZu+ϵ
ϵN(0,σ2Inp)τ,σ2CY

好的答案(+1),我是否正确地说矩阵取决于平均值的模型?因此,您只能比较同一C矩阵的REML估计值?CC

是的,取决于X(我将在一分钟之内编辑答案以使其清晰明了),因此您的嵌套模型需要具有相同的变量且具有固定的效果。CX
猫王2015年

REML是不是 一个 ML! ML被唯一地用于一个给定概率模型中定义但REML依赖于固定效应的参数。参见道格·贝茨(Doug Bates)的评论(以及有关R-SIG混合模型的许多历史评论)。
Livius

1
@Livius我想我的答案足够清楚地说明了限制可能性的构建方式。这一个可能性,这不是给定在第一个显示的方程式中写出的模型中观察到的的可能性,而是给定的投影矢量C YYCY在第二个显示的方程式中写成的模型中。REML 从这种可能性获得的ML。
Elvis'9

2
我认为这是DBates在这个问题上的抗议的重点:它是一个不同的模型,并且由于模型和参数化是相互交织的,因此很难进行比较。所以,你不能计算 ML为您原来的模式,但 ML为不同的模型从您的原始模型的特定参数产生。因此,具有嵌套固定效果结构的REML拟合模型不再是嵌套模型(如上所述)。但是,适合ML的模型仍然是嵌套的,因为您正在使指定模型上的可能性最大化。
利维乌斯(Livius)

9

似然比检验是基于两个似然比的统计假设检验。它们的属性与最大似然估计(MLE)相关。(例如,请参见非专业术语中的最大似然估计(MLE))。

在你的情况(见问题),要“两个嵌套VAR-柯阀模型中”选择',让我们说你想要一个模式之间进行选择,其中VAR-柯阀是Σg和模型,其中VAR-柯阀是,其中第二个模型(简单模型)是第一个模型(普通模型)的特例。 Σs

该试验是基于似然比。其中Σ小号Σ是最大似然估计。LR=2(log(Ls(Σ^s))log(Lg(Σ^g))Σ^sΣ^g

统计是,渐近(!)χ 2LR χ2

已知最大似然估计是一致的,但是,在许多情况下,它们是有偏差的。这是最大似然估计为估计的方差情况下Σ小号Σ,它可以是显示,它们被偏置。这是因为它们是使用从数据得出的均值进行计算的,因此,围绕此“估计平均值”的范围小于真实均值的范围(例如在计算标准偏差时,请参见直观解释除以n - 1Σ^sΣ^gn1

统计以上是χ 2大样品中的,这是因为仅仅一个事实,即,大的样品Σ小号ΣLRχ2Σ^s收敛到其真值(MLE是一致的)。(注意:在上面的链接中,对于非常大的样本,除以n或除以(n-1)不会有任何区别)Σ^g

对于较小的样品,MLE估计的Σ小号Σ将被偏压并且因此分配大号ř偏离χ 2,而REML估计将给予无偏估计Σ 小号Σ ,因此如果使用,对于var-covar模型的选择,REML然后估算L RΣ^sΣ^gLRχ2ΣsΣgLR将用于更小的样品由被更好地近似χ2

请注意,REML仅应用于选择均值相同的模型的嵌套var-covar结构,对于均值不同的模型,REML不适用,对于均值不同的模型,则应使用ML。


ΣsΣgΣsΣgχ2

@Cliff AB,这是该语句下面的解释,这是您必须使用REML的原因。

-4

我得到的答案与常识有关,而与统计无关。如果您看一下SAS中的PROC MIXED,则可以通过六种方法执行估算:

http://support.sas.com/documentation/cdl/zh-CN/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

但是REML是默认设置。为什么?显然,实践经验表明,它具有最佳性能(例如,收敛问题的机会最小)。因此,如果您的目标可以通过REML实现,那么使用REML而不是其他五种方法是有意义的。


2
它必须与“大样本理论”和MLE估计的偏见有关,请参阅我的答案。

1
对于此网站上的“为什么”问题,“可接受”是SAS的默认答案。
保罗

SAS默认提供的混合模型的p值在lme4库中无法用于R设计,因为它是不可信的(stat.ethz.ch/pipermail/r-help/2006-May/094765.html)。因此,“默认SAS”甚至可能是错误的。
蒂姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.