带有偏移的Poisson随机效应模型中的超分散和建模替代方案


12

使用主题内实验对来自实验研究的计数数据进行建模时,我遇到了许多实际问题。我简要描述了实验,数据以及到目前为止所做的事情,然后提出了我的问题。

依次向受访者展示了四部不同的电影。在每部电影之后,我们进行了一次采访,我们对RQ感兴趣的某些语句(预测计数变量)的出现次数进行了计数。我们还记录了可​​能出现的最大次数(编码单位;偏移量变量)。另外,电影的几个特征以连续的比例进行了测量,其中一个具有因果关系,即电影特征对陈述数量的影响的因果假设,而其他则为控制(预测变量)。

到目前为止采用的建模策略如下:

估计一个随机效应泊松模型,其中因果变量用作协变量,其他变量用作控制协变量。该模型的偏移量等于“ log(单位)”(编码单位)。跨对象产生随机效果(特定于电影的计数嵌套在对象中)。我们发现因果假设得到了确认(因果变量的系数)。在估算中,我们在R中使用了lme4包,特别是功能glmer。

现在我有以下问题。泊松回归中的一个常见问题是过度分散。我知道可以通过使用负二项式回归并评估其色散参数是否可以改善简单泊松模型的模型拟合性来进行测试。但是,我不知道如何在随机效果的情况下这样做。

  • 在我的情况下,我应该如何测试过度分散?我在简单的泊松/负二项式回归(无随机效应)中测试了超分散,我知道该如何拟合。该测试表明存在过度分散。但是,由于这些模型未考虑聚类,因此我认为此测试不正确。此外,我不确定偏移量在过度分散测试中的作用。
  • 是否存在负二项式随机效应回归模型之类的东西,该如何在R中拟合呢?
  • 您是否对我应该尝试使用数据的替代模型有任何建议,即考虑重复测量结构,计数变量和暴露(编码单位)?

1
对于初学者,请查看glmm.wikidot.com/faq中
Ben Bolker

1
谢谢,非常有帮助!也许有人想根据这些信息和其他信息来汇编答案。
tomka 2015年

Answers:


1

所计算的答案的最大数量与所提出的问题数量有关。尽管可以将其建模为计数类型的Poisson过程,但另一种解释是,泊松过程对已计算答案的数量没有理论上的限制,即它在。另一种分布,即具有有限支持的离散分布(例如beta二项式可能更合适,因为它具有更易变的形状。但是,这只是一个猜测,在实践中,我会使用蛮力来寻找更一般性问题的答案...[0,)

而不是检查过度分散(无法保证得出有用的答案),并且尽管可以检查分散指数以量化分散,但我会更有用地建议使用适合质量搜索的离散分布选项来搜索最佳分布程序,例如Mathematica的FindDistribution例程。该类型的搜索相当详尽地猜测了已知的分布最有效的方法,不仅可以缓解过度分散的情况,而且可以更有用地对许多其他数据特征进行建模,例如,拟合度(按一打测量)不同的方法。

为了进一步检查我的候选分布,我将专门检查残差以检查均方差和/或分布类型,并考虑是否可以根据数据的物理解释来协调候选分布。此过程的危险在于,确定与扩展数据集的最佳建模不一致的分布。不执行事后程序的危险是,没有适当测试(垃圾进垃圾出)的情况​​下,事先分配任意选择的分布。事后的优势这种方法的局限性在于它限制了拟合的误差,这也是它的弱点,即,由于尝试了许多分布拟合,它可能通过纯机会低估了建模误差。那就是检查残差并考虑物理性的原因。在自上而下先验的方法提供没有这样的事后检查的合理性。也就是说,比较具有不同分布的建模物理性的唯一方法是事后进行比较。因此出现了物理理论的本质,在我们接受数据作为详尽的替代性解释之前,我们先通过许多实验来检验数据的假设解释。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.