Answers:
泊松分布数据本质上是整数值,这对计数数据有意义。普通最小二乘(OLS,您称为“线性回归”)假设真实值通常分布在期望值附近,并且可以采用任何实际值,无论是正数还是负数,整数或分数。最后,逻辑回归仅适用于0-1值(TRUE-FALSE值)的数据,例如“有疾病”与“没有疾病”。因此,泊松分布对于计数数据最有意义。
也就是说,对于均值大于或等于30的数据,正态分布通常可以很好地近似于泊松分布。在回归框架中,您可以使用预测变量来影响计数,因此具有正态分布的OLS可能更容易拟合,并且实际上更通用,因为Poisson分布和回归假设均值和方差相等,而OLS可以处理不相等的均值和方差-例如,对于具有不同均值和方差的计数数据模型,可以使用负二项式分布。
从本质上讲,这是因为线性和逻辑回归对计数结果的外观做出了错误的假设。想象一下您的模型是一个非常愚蠢的机器人,无论这些命令多么愚蠢,它都会无情地遵循您的命令;它完全没有能力评估您所说的内容。如果您告诉机器人,票数从负无穷大到无穷大是连续分布的,那就是它认为票数是什么样的,它可能会给您毫无意义的预测(罗斯佩罗在即将举行的选举中将获得-10.469票)。
相反,泊松分布是离散且为正的(或零...零算为正,是吗?)。至少,这将迫使您的机器人为您提供现实生活中可能实际发生的答案。它们可能是好答案,也可能不是,但这至少是从“投票数”的可能集合中得出的。
当然,泊松也有其自身的问题:它假设投票计数变量的平均值也将与其方差相同。我不知道我是否曾经真正看过一个虚构的例子。幸运的是,聪明的人还提出了其他分布,这些分布也是正的和离散的,但是增加了参数以允许方差发生变化(例如,负二项式回归)。
其他人基本上都说了我将要讲的同样的话,但我想我应该加我的看法。这取决于您正在执行的操作,但是很多时候我们希望将手头的问题/数据概念化。与仅建立可以很好预测的模型相比,这是一种略有不同的方法。如果我们试图概念化正在发生的事情,那么使用非负分布对计数数据进行建模是有意义的,该非负分布仅将质量置于整数值。我们也有许多结果,基本上可以归结为说在某些条件下,计数数据确实是作为泊松散布。因此,如果我们的目标是概念化问题,那么使用泊松作为响应变量确实很有意义。其他人指出了为什么这样做是个好主意的其他原因,但是如果您真的试图将问题概念化并真正了解如何生成看到的数据,那么在某些情况下使用泊松回归就很有意义。
我的理解主要是因为计数始终是正数且是离散的,因此Poisson可以使用一个参数来汇总此类数据。主要问题是方差等于平均值。