交叉随机效应和不平衡数据


10

我正在建模一些我认为有两个交叉随机效应的数据。但是数据集不平衡,我不确定需要做些什么来说明它。

我的数据是一组事件。当客户端与提供者会面以执行成功或失败的任务时,将发生事件。有数千个客户和提供者,每个客户和提供者都参与不同数量的事件(大约5到500个)。每个客户和提供者都有一定的技能水平,任务成功的机会取决于两个参与者的技能。客户和提供者之间没有重叠。

我对客户和提供者人数的各自差异感兴趣,因此我们可以知道哪个来源对成功率有更大的影响。我还想知道我们实际拥有数据的客户和提供者之间技能的具体价值,以确定最佳/最差的客户或提供者。

最初,我想假设成功的可能性仅由客户和提供者的综合技能水平决定,而没有其他固定影响。因此,假设x是客户端的一个因素,y是提供者的一个因素,那么在R中(使用程序包lme4),我将模型指定为:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

一个问题是客户端在提供者之间分布不均。较高技能的客户更有可能与较高技能的提供者匹配。我的理解是,随机效应必须与模型中的任何其他预测变量均不相关,但是我不确定如何对其进行解释。

同样,一些客户和提供者的事件很少(少于10个),而其他事件和事件却很多(最多500个),因此我们在每个参与者上拥有的数据量分布广泛。理想情况下,这将反映在每个参与者技能估计值的“置信区间”中(尽管我认为“置信区间”一词在这里并不十分正确)。

由于数据不平衡,交叉随机效应会成为问题吗?如果是这样,我应该考虑哪些其他方法?

Answers:


4

对于不平衡数据,glmer能够处理不平衡组:与限制于平衡设计的重复测量方差分析相比,这实际上是开发混合模型方法的重点。包括很少事件(甚至只有一个)的客户或提供者仍然比忽略它们更好,因为它可以改善对剩余方差的估计(参见Martin 等人, 2011年)。

如果您想使用BLUP(ranef(model))作为技能的代理,那么您确实必须估计点预测周围的不确定性。这可以ranef(model, postVar=TRUE)在贝叶斯框架中使用后验分布或通过贝叶斯框架在后验分布中完成。但是,您不应在进一步的回归模型中将BLUP用作响应变量:请参见Hadfield 等。(2010年)为例,对BLUP的滥用和使用各种方法来充分考虑其不确定性的例子。

至于客户和提供者之间技能的相关性,这种不平衡如果非常强烈,可能会成为问题,因为它将阻止正确估计由于每种随机效应而引起的差异。似乎没有一个可以轻松处理随机拦截之间相关性的混合模型框架(请参阅此处以获取问题的正式表达)。您能否精确说明客户和提供者的平均成功之间的相关性?


非常感谢您解决我的一个老问题。答案仍然是有意义的,对指导和参考表示赞赏。对不起,我花了很长时间才注意到它在那里!我已将其标记为已解决。
Colonel.triq
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.