如何处理泊松回归中的过度分散：准似然，负二项式GLM或受试者水平随机效应？

我遇到了三个建议，用于处理Poisson响应变量和所有固定效应起始模型中的过度分散：

使用准模型；
使用负二项式GLM；
使用具有主题级别随机效果的混合模型。

但是该选择哪个，为什么呢？其中有什么实际标准吗？

— 布赖恩
source

准模型将比例/色散参数视为令人讨厌的参数，并为因异质性而扩大的IRR提供SE，而负二项式IRR取决于比例参数。混合模型为不同的效应建模：个体水平或条件效应，而负二项式和准泊松模型为边际模型。因此，他们没有估计同一件事。

— AdamO '18年

好的，那么实际选择哪个，做出该决定的标准是什么？

— 布赖恩

我认为如果（与数据无关）您知道泊松模型可以估计您感兴趣的趋势，但是设计或数据分析不完全符合方差假设，那么您将选择Quasipoisson 。如果您有充分的理由相信概率模型实际上是负二项式，那么您将使用负二项式模型，并且您需要实际预测异方差而不是对趋势进行推断。最后，如果您想了解一次接触对个人而不是对人群的影响（即从不使用毒理学），则可以使用混合模型。

— AdamO

我不同意@AdamO wrt的“混合模型...暴露对...个人而不是人群的影响...”。我的理解是，混合模型可以量化主题级别的效果，然后将它们整合在一起。从本质上讲，这会从您的参数估计值中得出伪复制（对同一主题的多个度量），从而得出总体（而不是个人）的无偏参数估计值。出于这个原因，我一直都在使用混合模型...因此，我希望我没有错！

— RTbecard

泊松回归只是一个GLM：

人们经常说应用泊松回归的参数原理。实际上，泊松回归只是GLM。这意味着当满足两个假设时，泊松回归适用于任何类型的数据（计数，等级，考试成绩，二元事件等）：1）均值对数是预测变量的线性组合； 2）结果的方差等于平均值。这两个条件分别称为均值模型和均值-方差关系。

通过对预测变量使用一组复杂的调整，可以稍微放松平均模型假设。很好，因为链接功能会影响参数的解释；解释的微妙之处在于回答科学问题和完全忽略统计分析的使用者之间的区别。在另一篇SE文章中，我讨论了对数转换对解释的有用性。

然而，事实证明，第二个假设（均值-方差关系）对推断有很大的影响。当均值-方差关系不成立时，参数估计将不会出现偏差。但是，标准误，置信区间，p值和预测均未正确校准。这意味着您无法控制I型错误，并且功率可能不够理想。

如果可以放宽均值方差以使方差与均值成正比呢？负二项式回归和Quasipoisson回归可以做到这一点。

准泊松模型

准泊松模型不是基于可能性的。他们最大化了一个“拟似然”，这是一个泊松似然，直至比例常数。该比例常数恰好是色散。分散被认为是令人讨厌的参数。虽然最大化例程会给出讨厌参数的估计值，但是该估计值仅仅是数据的人工产物，而不是任何可推广到总体的值。根据方差是按比例小于还是大于均值，分散仅用于“缩小”或“扩大”回归参数的SE。由于色散被视为令人讨厌的参数，因此拟泊松模型具有许多稳健的属性：数据实际上可能是异方差的（不满足比例均值方差假设），甚至表现出较小的依赖性源，均值模型不需要完全正确，但是回归参数的95％CI渐近正确。如果数据分析的目的是测量一组回归参数与结果之间的关联，则通常采用准泊松模型。这些模型的局限性在于它们无法产生预测间隔，Pearson残差无法告诉您平均模型的准确性如何，并且诸如AIC或BIC之类的信息标准无法有效地将这些模型与其他类型的模型进行比较。

负二项式模型

将负二项式回归理解为2参数Poisson回归是最有用的。均值模型与Poisson和Quasipoisson模型中的模型相同，其中结果的对数是预测变量的线性组合。此外，“比例”参数模拟均值-方差关系，其中方差仅与均值成正比。但是，与拟泊松模型不同，此类模型是基于精确似然的过程。在这种情况下，色散是一个实际参数，对总体具有一定程度的通用性。与准泊松相比，这带来了一些优势，但在我看来，它提出了更多（无法证明的）假设。与拟泊松模型不同：数据必须独立，均值模型必须正确，并且尺度参数在整个拟合值范围内必须是等规的才能获得正确的推论。但是，可以通过检查Pearson残差来对这些进行某种程度的评估，并且该模型可以产生可行的预测和预测间隔，并且可以与信息标准进行比较。

负二项式概率模型来自泊松-伽玛混合。也就是说，存在未知的波动Gamma随机变量“馈入”泊松速率参数。由于NB GLM拟合是基于似然的，因此陈述有关数据生成机制的先验信念并将其与手头模型的概率原理联系起来通常会很有帮助。例如，如果我要测试一些从24小时耐力赛中退休的赛车手，我可能会认为环境条件都是我没有测量到的压力源，因此会造成DNF的风险，例如湿气或低温影响轮胎牵引力，因此有发生旋转和破坏的危险。

依赖数据的模型：GLMM与GEE

泊松数据的广义线性混合模型（GLMM）无法与上述方法进行比较。GLMM回答了一个不同的问题，并在不同的数据结构中使用。在这里，数据之间的依存关系是明确衡量的。GLMM利用随机截距和随机斜率来说明各个级别的异质性。这修改了我们的估计。随机效应会修改建模的均值和方差，而不仅仅是如上所述的方差。

可以在相关数据中测量两种可能的关联级别：人口级别（边际）和个人级别（有条件）。GLMM声称要测量各个级别（条件）的关联：也就是说，考虑到整个级别的个人级别贡献者，预测因子组合的相对影响是什么。举例来说，考试预备课程对参加模范学校的孩子影响不大，而内城区的孩子可能会受益匪浅。在这种情况下，个人水平的影响要大得多，这是因为有优势的儿童在积极接触方面远远超出了曲线。

如果我们天真地将准泊松模型或负二项式模型应用于相关数据，则NB模型将是错误的，而Quasipoisson模型将是无效的。然而，GEE扩展了拟泊松模型以显式地对诸如GLMM之类的依赖结构进行建模，但是GEE衡量了边际（人口水平）趋势并获得了正确的权重，标准误和推断。

数据分析示例：

这篇文章已经太长了：) 本教程对前两个模型进行了很好的说明，如果您有兴趣的话可以参考更多的参考资料。有问题的数据涉及of的筑巢习惯：雌性坐在巢中，雄性（卫星）附着在其上。研究人员想根据女性特征来衡量女性依附的男性数量。我希望我已经强调了混合模型为什么不可比的原因：如果您有依赖数据，则必须对那些依赖数据试图回答的问题（GLM或GEE）使用正确的模型。

参考文献：

[1] Agresti，分类数据分析第2版

[2] Diggle，Heagerty，Liang，Zeger，纵向数据分析，第二版。

— 亚当
source