对于模型平均GLM,我们是否将链接或响应规模上的预测平均?


12

要计算GLM响应规模上模型平均的预测,这是“正确的”,为什么?

  1. 在链接规模上计算模型平均预测,然后反变换为响应规模,或者
  2. 将预测反向转换为响应尺度,然后计算模型平均值

如果模型是GLM,则预测接近但不相等。不同的R包为这两者提供了选项(具有不同的默认值)。几位同事大声疾呼:#1错误是因为“每个人都#2”。我的直觉说#1是“正确的”,因为它使所有线性数学保持线性(#2对不在线性范围内的事物进行平均)。一个简单的仿真发现,#2的MSE比(#1)小(非常!)。如果#2是正确的,那是什么原因?而且,如果#2是正确的,为什么我的原因(保持线性数学线性)的推理能力很差?

编辑1:在GLM中计算超出另一个因素水平的边际均值与我在上面提出的问题类似。Russell Lenth使用#1(在emmeans软件包中)的“时间”(他的话)来计算GLM模型的边际均值,他的论点与我的直觉相似。

编辑2:我使用模型平均来指代模型选择的替代方法,其中将预测(或系数)估计为“最佳”嵌套模型的全部或子集的加权平均值(请参见下面的参考资料和R包) 。

鉴于嵌套模型,其中为个别的线性预测(在链路空间)为模型,和为模型的重量,使用#1的上方(平均链路上的模型的平均预测规模,然后反向转换为响应规模)是:Mηimimwmm

Y^i=g1(m=1Mwmηim)

并且使用上述#2进行模型平均的预测(对所有预测进行反变换,然后在响应尺度上取平均值)是:M

Y^i=m=1Mwmg1(ηim)

模型平均的一些贝叶斯和惯常方法是:

  • Hoeting,JA,Madigan,D.,Raftery,AE和Volinsky,CT,1999。贝叶斯模型平均:教程。统计科学,第382-401页。

  • Burnham,KP和Anderson,DR,2003年。模型选择和多模型推断:一种实用的信息理论方法。施普林格科学与商业媒体。

  • 汉森,比利时,2007年。最小二乘模型平均。计量经济学,75(4),1175-1189页。

  • Claeskens,G。和Hjort,NL,2008年。模型选择和模型平均。剑桥图书。

R软件包包括BMAMuMInBASAICcmodavg。(注意:这不是更普遍的模型平均智慧的问题。)


1
我怀疑您的问题没有得到答案的原因是其他读者(例如我)不理解您的问题。您所说的“模型平均”到底是什么意思?请详细描述上下文,以便我们了解您要解决的问题。据我所知,emmeans软件包并未对来自不同模型的预测进行平均。
Gordon Smyth

1
感谢您提出这个问题,我看到添加Russell Lenth音符使我的问题感到困惑。我试图在上面澄清这一点。emmeans程序包将计算另一因素水平上的边际均值和SE,然后根据链接规模计算这些统计信息,然后进行逆变换。请参阅“模型是我们的最佳指南”部分
JWalker '18

我真的很想回答这个问题。同时,发表评论。MSE结果是在逆变换后的范围内计算的。我敢打赌,在相同的仿真结果下,按链接比例计算时,MSE在使用#1时要比使用#2时小。原因是样本均值是总体均值的最小二乘估计值,即使尺度错误也是如此。
Russ Lenth '18

Answers:


6

组合估计器或预测器的最佳方法取决于您要最小化的损失函数(或您要最大化的效用函数)。

一般而言,如果损失函数在响应量表上测量预测误差,则对响应量表上的平均预测变量进行校正。例如,如果您要最小化响应规模上预期的预测平方误差,则后均预测值将是最佳的,并且取决于您的模型假设,这可能等效于对响应规模上的预测取平均。

请注意,对于离散模型,线性预测变量的平均性能可能非常差。假设您正在使用逻辑回归来预测二进制响应变量的概率。如果任何模型的估计概率为零,则该模型的线性预测因子将为负无穷大。对任意数量的有限值取无穷大的平均值仍将是无穷大。

您是否查阅了列出的参考文献?我敢肯定,Hoeting等人(1999年)会讨论损失函数,尽管可能不会很详细。


1
优秀的。感谢您的回复(我欢迎其他人!)。我假设“然后平均预测变量可能是最佳的或接近最佳值”是在响应量表上平均预测变量。后勤记录特别有用。
JWalker '18年

1
@rvl关于损失函数的线性,我在考虑损失的影响函数。我同意这有点神秘,所以我编辑了我的评论。我不得不不同意你的其他言论。GLM由ML估算,而不是由平方误差损失估算。尽管名称如此,但GLM流行的IRLS算法并没有最小化平方和,并且IRLS工作变量涉及响应范围而不是链接范围的标准化残差。在任何情况下,估计和预测都不相同,并且不需要具有相同的损失函数。
戈登·史密斯

@rvl精确的零拟合值在logistic回归中经常出现,并且已经在该论坛上讨论过多次。
戈登·史密斯

@rvl不会按链接比例评估损失。对于我来说,在此讨论不是为您提供有关GLM的教程的正确位置-我将您推荐给我有关Springer大约一个月出版的关于GLM的书。讨论也不是您为原始问题提供替代答案的正确位置。如果要这样做,请写下正确的答案。
Gordon Smyth '18

这是我们关于GLM的书的链接:doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.