Answers:
关于泊松与法线回归的三点都与模型规格有关:
预测变量变化的影响
对于像数学测验分数这样的连续预测变量,泊松回归(具有通常的对数链接)意味着预测变量的单位变化导致奖励数量的百分比变化,即,数学测验中的10分以上与例如25%更多奖项。这取决于已经预测到的学生所获得的奖励数量。相比之下,正态回归将10个点与固定数量关联起来,在所有情况下都说3个奖项。使用该模型之前,您应该对该假设感到满意。(我认为这很合理,对下一点取模。)
与没有奖励的学生打交道
除非确实有很多奖项分布在许多学生身上,否则您的奖项数量通常很少。实际上,我会预测通货膨胀为零,即大多数学生没有获得任何奖励,因此很多零,而一些好学生则获得了很多奖励。这与泊松模型的假设不符,并且至少对法线模型同样不利。
如果您有大量数据,那么“零膨胀”或“障碍”模型将是自然的。这是两个联系在一起的模型:一个用于预测学生是否获得任何奖励,另一个用于预测如果完全获得奖励她将获得多少奖励(通常是某种形式的Poisson模型)。我希望所有动作都在第一个模型中。
独家奖
最后,关于奖励的一点。如果奖项是排他性的,即如果一个学生获得了奖项,那么其他任何学生都无法获得该奖项,那么您的结果将是成对的;学生a的一项计数会降低其他所有项的可能计数。这是否值得担心取决于奖项的结构和学生人数的大小。我会在第一遍忽略它。
总而言之,泊松轻松地控制了法线,但计数非常大,但先检查泊松的假设,然后再大量依赖泊松进行推断,并在必要时准备改用稍微复杂的模型类。
在这种情况下,泊松回归将更适用,因为您的回应就是某些事情的计数。
简而言之,我们对单个学生的奖励数量分布来自泊松分布进行建模,每个学生都有自己的 poisson参数。然后,泊松回归将此参数与解释变量而不是计数相关。
这比正常线性回归更好的原因是与误差有关。如果我们的模型是正确的,并且每个学生都有自己的,那么对于给定的我们将期望其周围的计数具有泊松分布-即非对称分布。这意味着异常高的值并不比异常低的值令人惊讶。λ
正常线性回归假设均值周围存在正常误差,因此对它们进行平均加权。这就是说,如果一个学生预期获得的奖励数量为1,则他们获得-2奖励的可能性与获得3个奖项的可能性一样:这显然是胡说八道,而泊松是如何解决的。
只要奖励的条件均值在预测变量中是线性的,对预测变量的奖励的普通最小二乘回归将产生一致的参数估计。但这通常是不足够的,因为它允许预测的奖励数量为负(即使对于预测变量的“合理”值),这没有任何意义。人们通常会尝试通过获取奖励的自然对数并使用OLS来补救此问题。但这失败了,因为某些学生没有获得任何奖励,因此您必须使用,但这会造成它自己的问题,因为您大概在乎奖励,而且重新转换是不平凡的。
另外,由于预期的奖励数量变得非常大,出于@Corone概述的原因,OLS应该会表现更好。在沃比贡湖(Lake Wobegon)中,OLS是必经之路。
如果期望的数字很低,有很多零,我将在负二项式模型上使用具有鲁棒标准误差的Poisson。NB回归对产生系数的一阶条件中出现的方差有很强的假设。如果不满足这些假设,则系数本身可能会受到污染。泊松情况并非如此。
@corone会带来一些好处,但请注意,只有小时,泊松才真正不对称。即使对于 = 10,它也是相当对称的,例如λ
set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)
显示的偏度为0.31,非常接近0。
我也喜欢@conjugateprior的观点。以我的经验,泊松回归很难很好地拟合。通常,我通常使用负二项式或零膨胀模型。