何时将Poisson，几何和负二项式GLM用于计数数据？

在GLM框架内（8个GLM分布中只有3个用于计数数据），我试图为自己布局适合何时使用哪种回归类型（几何，泊松，负二项式）和计数数据。我已阅读了有关负二项式和泊松分布的文章。

何时将Poisson，几何和负二项式GLM用于计数数据？

到目前为止，我有以下逻辑：它计数数据吗？如果是，均值和方差不相等吗？如果是，则为负二项式回归。如果否，则泊松回归。零通胀吗？如果是，则零泊松或零负二项式。

问题1似乎没有明确指示何时使用。有什么可以告知该决定的信息吗？据我了解，一旦您切换到ZIP，平均方差等于假设就可以放宽了，因此它再次与NB非常相似。

问题2几何族适用于此？在决定是否在回归中使用几何族时，我应该问数据什么样的问题？

问题3我看到人们一直在交换负二项式和泊松分布，而不是几何形状，因此我猜想何时使用它会有明显不同。如果是这样，那是什么？

PS：如果人们想评论/调整它以便进行讨论，我已经制作了一个（根据评论可能过于简化）图表（可编辑）。计数数据：GLM决策树

— 蒂莫西·劳
source

我只熟悉R编程，但希望能对您有所帮助... stats.stackexchange.com/questions/60643/…–

— RYO ENG联胡

@RYOENG，我看到了，并在问题中描述了与逻辑树的区别。我对讨论较少的dist（即几何dist）

— timothy.s.lau 2015年

（更新）@Nick Cox在这里的答案：stats.stackexchange.com/questions/67547/when-to-use-gamma-glms似乎已经印证了我到目前为止所看到的情绪：“ 很难确定何时何地用它来解决最好的问题时

— 只能

@Glen_b很好，我更新了逻辑。

— timothy.s.lau 2015年

您也可以放心删除有关被mod破坏的段落。

— Glen_b-恢复莫妮卡2015年

$\mu + 1/\theta \cdot \mu^2$ $\mu$ $\theta$ $\alpha = 1/\theta$ $\theta = \infty$ $\theta = 1$

$\theta$ $\infty$

当然，还有其他单参数或多参数计数数据分布（包括您提到的复合泊松）的负载，有时可能会或可能不会导致明显更好的拟合。

至于多余的零：两种标准策略是使用零膨胀计数数据分布或由零或更大的二进制模型加上零截断计数数据模型组成的障碍模型。正如您所提到的，过多的零和过度分散可能会造成混淆，但是即使在为过量零调整模型之后，通常仍然存在相当大的过度分散。同样，如果有疑问，我建议按照与上述相同的逻辑使用基于NB的零通胀或障碍模型。

免责声明：这是一个非常简短的概述。在实际应用模型时，我建议参考有关该主题的教科书。我个人喜欢Winkelmann和Cameron＆Trivedi的计数数据书。但是也有其他好的。对于基于R的讨论，您可能也喜欢我们在JSS（http://www.jstatsoft.org/v27/i08/）中的论文。

— 阿奇姆·蔡莱斯（Achim Zeileis）
source

μ + μ^{2} > μ

$\mu + \mu^2 > \mu$

μ

$\mu$

正如您可能从我之前的评论中可以看出的那样：我不喜欢这样简单化的流程图。要选择一个好的模型，需要了解模型之间的联系及其与实际应用的关系。您是否对几何感兴趣，取决于您的应用案例。同样，对于零通胀与障碍（您已从图表中省略了）。最后的问题的顺序不一定是所有的应用程序等相同

— 阿齐姆Zeileis

我知道我的草图似乎有点过分简化了。但是对于理科专业的学生来说，从相当简单的图式开始并不罕见，如果您参加了物理课，那么您就会熟悉它们多久更改和破坏您先前学到的“规则”，这是以后学习更多内容的基础。专家和细微的理解。因此，为了学习起见，我是一名研究生，我只是想对以后可以建立的基础（如障碍等）有一个更“正确”的理解。感谢BTW，我将研究这些教科书你提到的以及你的论文。

— timothy.s.lau 2015年

\log (μ_{i}) = x_{i}^{⊤} β

$\log(\mu_i) = x_i^\top \beta$