要计算GLM响应规模上模型平均的预测,这是“正确的”,为什么?
- 在链接规模上计算模型平均预测,然后反变换为响应规模,或者
- 将预测反向转换为响应尺度,然后计算模型平均值
如果模型是GLM,则预测接近但不相等。不同的R包为这两者提供了选项(具有不同的默认值)。几位同事大声疾呼:#1错误是因为“每个人都#2”。我的直觉说#1是“正确的”,因为它使所有线性数学保持线性(#2对不在线性范围内的事物进行平均)。一个简单的仿真发现,#2的MSE比(#1)小(非常!)。如果#2是正确的,那是什么原因?而且,如果#2是正确的,为什么我的原因(保持线性数学线性)的推理能力很差?
编辑1:在GLM中计算超出另一个因素水平的边际均值与我在上面提出的问题类似。Russell Lenth使用#1(在emmeans软件包中)的“时间”(他的话)来计算GLM模型的边际均值,他的论点与我的直觉相似。
编辑2:我使用模型平均来指代模型选择的替代方法,其中将预测(或系数)估计为“最佳”嵌套模型的全部或子集的加权平均值(请参见下面的参考资料和R包) 。
鉴于嵌套模型,其中为个别的线性预测(在链路空间)为模型,和为模型的重量,使用#1的上方(平均链路上的模型的平均预测规模,然后反向转换为响应规模)是:
并且使用上述#2进行模型平均的预测(对所有预测进行反变换,然后在响应尺度上取平均值)是:
模型平均的一些贝叶斯和惯常方法是:
Hoeting,JA,Madigan,D.,Raftery,AE和Volinsky,CT,1999。贝叶斯模型平均:教程。统计科学,第382-401页。
Burnham,KP和Anderson,DR,2003年。模型选择和多模型推断:一种实用的信息理论方法。施普林格科学与商业媒体。
汉森,比利时,2007年。最小二乘模型平均。计量经济学,75(4),1175-1189页。
Claeskens,G。和Hjort,NL,2008年。模型选择和模型平均。剑桥图书。
R软件包包括BMA,MuMIn,BAS和AICcmodavg。(注意:这不是更普遍的模型平均智慧的问题。)