在这种情况下，泊松回归与线性回归相比有什么优势？

12

我获得了一个数据集，其中包含一所高中学生获得的奖励数量，其中预测的奖励数量包括该学生注册的课程类型以及他们的数学期末考试成绩。

我想知道是否有人可以告诉我为什么线性回归模型在这种情况下可能不合适，以及为什么使用泊松回归会更好？谢谢。

— 艾米莉
source

14

关于泊松与法线回归的三点都与模型规格有关：

预测变量变化的影响

对于像数学测验分数这样的连续预测变量，泊松回归（具有通常的对数链接）意味着预测变量的单位变化导致奖励数量的百分比变化，即，数学测验中的10分以上与例如25％更多奖项。这取决于已经预测到的学生所获得的奖励数量。相比之下，正态回归将10个点与固定数量关联起来，在所有情况下都说3个奖项。使用该模型之前，您应该对该假设感到满意。（我认为这很合理，对下一点取模。）

与没有奖励的学生打交道

除非确实有很多奖项分布在许多学生身上，否则您的奖项数量通常很少。实际上，我会预测通货膨胀为零，即大多数学生没有获得任何奖励，因此很多零，而一些好学生则获得了很多奖励。这与泊松模型的假设不符，并且至少对法线模型同样不利。

如果您有大量数据，那么“零膨胀”或“障碍”模型将是自然的。这是两个联系在一起的模型：一个用于预测学生是否获得任何奖励，另一个用于预测如果完全获得奖励她将获得多少奖励（通常是某种形式的Poisson模型）。我希望所有动作都在第一个模型中。

独家奖

最后，关于奖励的一点。如果奖项是排他性的，即如果一个学生获得了奖项，那么其他任何学生都无法获得该奖项，那么您的结果将是成对的；学生a的一项计数会降低其他所有项的可能计数。这是否值得担心取决于奖项的结构和学生人数的大小。我会在第一遍忽略它。

总而言之，泊松轻松地控制了法线，但计数非常大，但先检查泊松的假设，然后再大量依赖泊松进行推断，并在必要时准备改用稍微复杂的模型类。

— 共轭先验
source

9

在这种情况下，泊松回归将更适用，因为您的回应就是某些事情的计数。

简而言之，我们对单个学生的奖励数量分布来自泊松分布进行建模，每个学生都有自己的 poisson参数。然后，泊松回归将此参数与解释变量而不是计数相关。 $\lambda$

这比正常线性回归更好的原因是与误差有关。如果我们的模型是正确的，并且每个学生都有自己的，那么对于给定的我们将期望其周围的计数具有泊松分布-即非对称分布。这意味着异常高的值并不比异常低的值令人惊讶。 $\lambda$ $\lambda$

正常线性回归假设均值周围存在正常误差，因此对它们进行平均加权。这就是说，如果一个学生预期获得的奖励数量为1，则他们获得-2奖励的可能性与获得3个奖项的可能性一样：这显然是胡说八道，而泊松是如何解决的。

— 科隆
source

8

只要奖励的条件均值在预测变量中是线性的，对预测变量的奖励的普通最小二乘回归将产生一致的参数估计。但这通常是不足够的，因为它允许预测的奖励数量为负（即使对于预测变量的“合理”值），这没有任何意义。人们通常会尝试通过获取奖励的自然对数并使用OLS来补救此问题。但这失败了，因为某些学生没有获得任何奖励，因此您必须使用，但这会造成它自己的问题，因为您大概在乎奖励，而且重新转换是不平凡的。 $\ln(awards+0.5)$

另外，由于预期的奖励数量变得非常大，出于@Corone概述的原因，OLS应该会表现更好。在沃比贡湖（Lake Wobegon）中，OLS是必经之路。

如果期望的数字很低，有很多零，我将在负二项式模型上使用具有鲁棒标准误差的Poisson。NB回归对产生系数的一阶条件中出现的方差有很强的假设。如果不满足这些假设，则系数本身可能会受到污染。泊松情况并非如此。

— 迪米特里（Dimitriy V. Masterov）
source

4

@corone会带来一些好处，但请注意，只有小时，泊松才真正不对称。即使对于 = 10，它也是相当对称的，例如 $\lambda$ $\lambda$

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

显示的偏度为0.31，非常接近0。

我也喜欢@conjugateprior的观点。以我的经验，泊松回归很难很好地拟合。通常，我通常使用负二项式或零膨胀模型。

— 彼得·弗洛姆-恢复莫妮卡
source