比较混合效应模型和固定效应模型(测试随机效应的显着性)


10

给定三个变量yx,它们是正连续的,而和z是分类的,我有两个候选模型,分别为:

fit.me <- lmer( y ~ 1 + x + ( 1 + x | factor(z) ) )

fit.fe <- lm( y ~ 1 + x )

我希望比较这些模型,以确定哪种模型更合适。在我看来,从某种意义上讲,它fit.fe是嵌套的fit.me。通常,当这种一般情况成立时,可以执行卡方检验。在中R,我们可以使用以下命令执行此测试,

anova(fit.fe,fit.me)

当两个模型包含随机效应(通过生成lmer从所述lme4包),则anova()命令工作正常。由于边界参数的存在,通常建议通过仿真测试所得的卡方统计量,尽管如此,我们仍可以在仿真过程中使用该统计量。

当两个模型都只包含固定效果时,此方法(以及相关的anova()命令)可以正常工作。

但是,当一个模型包含随机效应而精简模型包含固定效应时,如上述情况一样,该anova()命令将不起作用。

更具体地说,出现以下错误:

 > anova(fit.fe, fit.me)
 Error: $ operator not defined for this S4 class

从上方使用Chi-Square方法(模拟)有什么问题吗?还是这仅仅是anova()不知道如何处理由不同函数生成的线性模型的问题?

换句话说,手动生成从模型得出的卡方统计量是否合适?如果是这样,比较这些模型的适当自由度是多少?据我估计:

F=((SSEreducedSSEfull)/(pk))((SSEfull)/(np1))Fpk,np1

k=1p=k+2=3未知常量,但对于混合效果,它们被视为未知的随机变量。在此问题上,我将提供一些帮助。

最后,是否有人有比较合适的(R基于-的)解决方案来比较这些模型?


4
如果您要更换lm()gls()nlme包装,并lmer()lme()(再次从nlme包中),一切都将正常工作。但是请注意,您会得到一个保守的测试(p值太大),因为较简单模型的参数在参数空间的边界上。实际上,是否包括随机效应的选择应基于理论(例如抽样计划),而不是基于统计检验。
Karl Ove Hufthammer'3

1
您要如何处理这些模型?一个模型可能对某些目的更好,而另一种模型对其他目的则更好。所有模型都是错误的,因此问题不是哪个模型正确,而是哪个模型对您的特定问题更有用。
Kodiologist

1
@Kodiologist基本上,我想确保固定效果的参数估计可靠。如果假设观测值是独立的,则其标准误可能不可靠。另外,最好对随机效应的变量作一些陈述,但我想这并不是那么重要。
user9171 2015年

2
@ user9171检查模型参数估计的稳定性(可靠性)的一种好方法是使用引导程序。两个模型共享的每个参数的图形引导分布,每个参数和模型一个图形。分布更紧密意味着更高的稳定性。您可能会发现,较简单的模型会产生更稳定的估计值,因为较少的参数允许对每个参数进行更精确的估计。
Kodiologist

Answers:


6

从技术上讲,您可以通过切换参数的顺序来使其工作:

> anova(fit.me, fit.fe) 

会工作的很好。如果传递的对象是lmerfirst 生成的,anova.merMod则将调用而不是anova.lm(不知道如何处理lmer对象)。看到:

?anova.merMod

尽管选择混合模型或固定模型是建模选择,但需要考虑实验设计,而不是模型选择问题。有关更多详细信息,请参见@BenBolker的https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#testing-significance-of-random-effects

考虑测试随机效应的重要性。


+1。我随意插入@BenBolker的FAQ链接,其中包含一些进一步的讨论和参考。
变形虫
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.