广义线性混合模型:模型选择


10

这个问题/主题是在与一位同事的讨论中提出的,我正在就此寻求一些意见:

我正在使用随机效应逻辑回归建模一些数据,更确切地说是随机截距逻辑回归。对于固定效果,我有9个有趣且值得考虑的变量。我想进行某种模型选择,以找到重要的变量并给出“最佳”模型(仅主要效果)。

我的第一个想法是使用AIC比较不同的模型,但是使用9个变量,我比较比较2 ^ 9 = 512个不同的模型(关键字:数据挖掘)并不太令人兴奋。

我与一位同事讨论了这个问题,他告诉我,他记得曾经读过关于对GLMM使用逐步(或向前)模型选择的文章。但是应该使用AIC作为进入/退出标准,而不是使用p值(例如,基于GLMM的似然比检验)。

我发现这个想法非常有趣,但是我没有找到进一步讨论此问题的参考资料,而我的同事不记得他在哪里读过。许多书籍建议使用AIC来比较模型,但是我没有找到关于将其与逐步或向前模型选择过程一起使用的任何讨论。

所以我基本上有两个问题:

  1. 在逐步模型选择过程中将AIC用作进入/退出标准有什么问题吗?如果是,那有什么选择?

  2. 您是否有参考资料讨论上述过程(也作为最终报告的参考资料?

最好,

艾米利亚


3
逐步模型选择与整个子集选择一样多的数据挖掘(实际上,它试图在更少的时间内找到大致相同的解决方案)。基于AIC的选择也是数据挖掘。
Michael M

Answers:


8

在多级模型中,逐步选择是错误的,原因与在“常规”回归中是错误的原因相同:p值太低,标准误差太小,参数估计值偏离0等等。最重要的是,它拒绝您思考的机会。

9 IV并不是很多。您为什么选择那9个?当然,您有一个理由。

首先要做的是看很多图。哪一个精确的数据在某种程度上取决于您的数据是纵向的(在这种情况下,x轴上的时间图通常很有用)还是聚类的。但是,请务必查看9个IV和DV之间的关系(平行箱图是一种简单的可能性)。

理想的做法是基于实质意义构建一些模型,并使用AIC,BIC或其他某种措施对其进行比较。但是,如果没有特定的模型可以说是最好的,也不要感到惊讶。您没有说自己在哪个领域工作,但是在许多(大多数?)领域中,自然是复杂的。几个模型可能拟合得差不多,而另一个模型则可能更适合于不同的数据集(即使它们都是来自相同总体的随机样本)。

至于参考-有很多关于非线性混合模型的好书。哪一个最适合您取决于a)您在哪个字段中b)数据的性质是什么c)您使用什么软件。

回应您的评论

  1. 如果所有9个变量在科学上都很重要,那么我至少会考虑将它们全部包括在内。如果每个人都认为重要的变量产生的影响很小,那很有趣。

  2. 当然,可以随着时间和各种方式绘制所有变量。

  3. 对于纵向多级模型的一般问题,我喜欢Hedeker和Gibbons ; SAS中的非线性纵向模型,例如Molenberghs和Verbeke。SAS文档本身(针对PROC GLIMMIX)也提供了指导。


在这项研究中,随着时间的推移,受试者会暴露于不同的药物和运动组合,并且感兴趣的结果是存在某种呼吸道疾病(是/否)。在6个月内每2周对患者进行一次重复测量。在软件方面,我使用SAS和R。由于其科学重要性,研究人员选择了9种IV。
艾米利亚(Emilia)

与使用算法模型选择相比,数据检查同样糟糕,甚至更糟。原因是,算法模型选择已被很好地理解并且可以针对其进行调整。查看数据并采用主观判断是无法复制或调整的过程。无论如何,我都会避免进行模型选择,因为模型选择会使推论无效。因为这里只有9个协变量,所以我认为最好的建议是使用完整模型或仅基于物质选择的模型。
user3903581

3

使用收缩方法(例如LASSO)可以更好地进行模型选择。逐步方法过于宽松。理由可以在Tibshirani的网页中找到。如果您使用的是R,则有一个名为的程序包glmmLasso,该程序包允许使用LASSO收缩方法在广义线性混合效应模型中选择模型。


1

在R中基于AIC的混合模型选择的良好参考(也适用于虚拟对象)将是Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.