每级1个观察值的混合模型


12

我正在glmer为一些业务数据拟合随机效应模型。目的是分析分销商的销售业绩,并考虑到地区差异。我有以下变量:

  • distcode:发行商ID,大约有800个级别
  • region:顶级地理ID(北,南,东,西)
  • zone:嵌套在中层地理区域内region,总共约30个层级
  • territory:嵌套在zone约150层中的低层地理

每个分销商仅在一个地区运营。棘手的部分是这是汇总数据,每个分发服务器只有一个数据点。因此,我有800个数据点,尽管有规律地尝试,但我试图(至少)容纳800个参数。

我已经安装了一个模型,如下所示:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

尽管可以打印出注释,但运行没有问题:

随机效应的分组因子的级别数等于 n,即观察数

这是明智的做法吗?我得到了所有系数的有限估计,而且AIC也不是不合理的。如果我尝试使用带身份链接的泊松GLMM,则AIC会更糟,因此日志链接至少是一个不错的起点。

如果我绘制拟合值与响应的关系图,我得到的基本上是完美拟合,我猜这是因为每个分配器有一个数据点。那合理吗,还是我做的事完全愚蠢?

这正在使用一个月的数据。我可以获取多个月的数据并以这种方式进行一些复制,但是我必须添加新的术语来表示逐月的变化以及可能的交互作用,对吗?


ETA:我再次运行了上面的模型,但是没有family参数(所以只是一个高斯LMM而不是GLMM)。现在lmer给我以下错误:

(函数(fr,FL,start,REML,verbose)中的错误:用于随机效应的分组因子的数量级必须小于观察值的数量

因此,我想我做的事情不明智,因为改变家庭不会产生影响。但是现在的问题是,为什么它首先起作用?

Answers:


4

我强烈反对采用混合模型的做法,在这种情况下,您在概念上有与观察组相同的组数,没有“组”,也没有基于计算的组,因为您的模型应该有明显的问题(在这种情况下)至少一个LMM。(我仅与LMM合作,可能也会有些偏见。:))

计算部分:例如假设标准LME模型,其中。现在假设您具有相同数量的观察值和组(假设在“简单”聚类下,没有交叉或嵌套效应等),那么所有样本方差都将在矩阵中移动,并且应该为零。(我认为您已经为此说服了自己)这几乎等同于与线性模型中的数据一样多的参数。您有一个过度参数化的模型。因此,回归有点荒谬。d σ 2yN(Xβ,ZDZT+σ2I)Dσ2

(我不理解您所说的“合理的” AIC的含义。AIC应该是可计算的,尽管您的数据过拟合,但您仍在“计算某些东西”。)

另一方面,glmer(假设您已将家族指定为Poisson),则具有一个链接函数,该函数说明如何依赖(对于简单的对数为Poisson的情况-因为)。在这种情况下,您可以调整比例参数,这样就可以解决过度分散问题,因此您确实具有可识别性(这就是为什么在抱怨的同时它确实为您提供了结果)的原因;这就是您如何“解决”与观察数一样多的组的问题。X β X β > 0yXβXβ>0glmer

概念部分:我认为这更“主观”,但也更直接。您使用混合效果。因为您实质上认识到错误中存在某些与组相关的结构,因此无法进行建模。现在,如果您有与数据点一样多的组,则无需查看结构。现在,可归因于“分组”的LM错误结构中的任何偏差都将归因于特定的观察点(因此,最终导致模型过拟合)。

通常,单观察组有些混乱。从r-sig-mixed-models邮件列表中引用D.Bates:

我认为您会发现,无论您包含还是排除单个观测组,模型拟合的差异都很小。试试看。


1
没错,在线性设置中这似乎没有多大意义,但是在泊松回归中它可能非常有用。我将看看是否可以找到本·博克在主题上所说的内容的链接(他是lme4的开发人员之一,与道格·贝茨一样)。
David J. Harris,

是的,正如我说过的那样,我可能主要是对LMM有所偏见,而我在评论“概念部分”。我解释了为什么glmer无论如何都可以这样做(尽管对此不太满意)。
usεr11852

8

如果将计数数据过度分散作为响应变量,则每个观察值一个级别非常有用。这等效于说您希望计数数据来自Poisson对数正态分布,即您的Poisson分布的lambda参数未完全由模型中的预测变量确定,并且可能性呈对数正态分布。

lme4的开发人员之一Ben Bolker对此做了两个类似教程的示例。第一个包含综合数据的细节更加详细。您可以在此处找到pdf 。他还对涉及猫头鹰的真实数据进行了探索性数据分析(可从此处获得pdf和R代码)。


1
+1。我同意你的意思。正如我在原始帖子中提到的那样:“ 过度分散(...)是如何“解决”与观察数一样多的组的问题。 ”感谢您以glmer概念上的方式提出更好的观点。
usεr11852

1
感谢您的链接!阅读完这些内容并仔细查看模型中的拟合值后,我对发生的事情有了更好的了解。我实际上不认为Ben在做什么适合我的分析。他使用观察级别的变量来允许过度分散,所以这就像一个令人讨厌的效果。在我的分析中,distributor有一个有趣的影响:我想看看在允许其他变量的情况下分发者之间的相对表现。因此,它与传统线性混合模型更具有可比性,在传统线性混合模型中,过拟合是一个真正的问题。
Hong Ooi 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.