为什么将Poisson回归用于计数数据?


Answers:


51

泊松分布数据本质上是整数值,这对计数数据有意义。普通最小二乘(OLS,您称为“线性回归”)假设真实值通常分布在期望值附近,并且可以采用任何实际值,无论是正数还是负数,整数或分数。最后,逻辑回归仅适用于0-1值(TRUE-FALSE值)的数据,例如“有疾病”与“没有疾病”。因此,泊松分布对于计数数据最有意义。

也就是说,对于均值大于或等于30的数据,正态分布通常可以很好地近似于泊松分布。在回归框架中,您可以使用预测变量来影响计数,因此具有正态分布的OLS可能更容易拟合,并且实际上更通用,因为Poisson分布和回归假设均值和方差相等,而OLS可以处理不相等的均值和方差-例如,对于具有不同均值和方差的计数数据模型,可以使用负二项式分布


17
需要注意的是刚装修使用OLS不需要正常-当你做,你需要正态分布asssumption参数推断这是
达诚

1
@戴森:我站得住了。
S. Kolassa-恢复莫妮卡2012年

3
如果您使用方差的Huber / White / Sandwich估计量,则可以放宽均方差假设
Dimitriy V. Masterov

@Dason虽然并非严格要求,但对于要拟合的模型使用正确的模型几乎总是可以提供更好的估计,并且可以在残差图中看到它。
2014年

24

从本质上讲,这是因为线性和逻辑回归对计数结果的外观做出了错误的假设。想象一下您的模型是一个非常愚蠢的机器人,无论这些命令多么愚蠢,它都会无情地遵循您的命令;它完全没有能力评估您所说的内容。如果您告诉机器人,票数从负无穷大到无穷大是连续分布的,那就是它认为票数是什么样的,它可能会给您毫无意义的预测(罗斯佩罗在即将举行的选举中将获得-10.469票)。

相反,泊松分布是离散且为正的(或零...零算为正,是吗?)。至少,这将迫使您的机器人为您提供现实生活中可能实际发生的答案。它们可能是答案,也可能不是,但这至少是从“投票数”的可能集合中得出的。

当然,泊松也有其自身的问题:它假设投票计数变量的平均值也将与其方差相同。我不知道我是否曾经真正看过一个虚构的例子。幸运的是,聪明的人还提出了其他分布,这些分布也是正的和离散的,但是增加了参数以允许方差发生变化(例如,负二项式回归)。


5

Ť=1个λŤ=ŤλŤλŤ

pñ=ñ=λŤñË-λŤñ

通过这种方法以及最大似然法和广义线性模型(或其他方法),您可以得出泊松回归

简单来说,泊松回归是一种模型,它符合基础随机过程的假设,该随机过程以模型中其他变量确定的速率(即每单位时间的数量)生成少量事件。


3

其他人基本上都说了我将要讲的同样的话,但我想我应该加我的看法。这取决于您正在执行的操作,但是很多时候我们希望将手头的问题/数据概念化。与仅建立可以很好预测的模型相比,这是一种略有不同的方法。如果我们试图概念化正在发生的事情,那么使用非负分布对计数数据进行建模是有意义的,该非负分布仅将质量置于整数值。我们也有许多结果,基本上可以归结为说在某些条件下,计数数据确实作为泊松散布。因此,如果我们的目标是概念化问题,那么使用泊松作为响应变量确实很有意义。其他人指出了为什么这样做是个好主意的其他原因,但是如果您真的试图将问题概念化并真正了解如何生成看到的数据,那么在某些情况下使用泊松回归就很有意义。


2

我的理解主要是因为计数始终是正数且是离散的,因此Poisson可以使用一个参数来汇总此类数据。主要问题是方差等于平均值​​。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.