哪种回归模型最适合用于计数数据?


10

我想稍微了解一下统计信息,但是我有些固执。我的数据如下:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

我现在想建立一个回归模型,以便能够根据数据预测任何给定年份的基因数量。直到现在,我都使用线性回归进行分析,但是我已经阅读了一些文章,对于这种数据,它似乎并不是最佳选择。我已经读过泊松回归可能有用,但是我不确定该使用什么。所以我的问题是:

是否有针对此类数据的通用回归模型?如果不是,我该怎么做才能找出最适合使用哪种方法(就我必须了解的数据而言)?



2
这与时间序列数据有关吗?
Michael M

Answers:


22

不,没有通用的计数数据回归模型。

(就像没有用于连续数据的通用回归模型一样。最通常假设线性模型具有正态分布的同方差噪声,并且使用普通最小二乘法进行拟合。但是,伽玛回归或指数回归通常用于处理不同的误差分布假设或条件异方差模型(例如时间序列上下文中的ARCH或GARCH)来处理异方差噪声。)

常见的模型包括您所写的或负二项式回归。这些模型已经足够广泛,可以找到各种软件,教程或教科书。我特别喜欢希尔伯的负二项式回归前面的问题讨论了如何在不同的计数数据模型之间进行选择。

如果您的数据中有“很多”零,特别是如果您怀疑零可能是由与非零不同的数据生成过程驱动的(或者某些零来自一个DGP,而其他零和非零来自(来自不同的DGP),模型可能会有用。最常见的一种是零膨胀泊松(ZIP)回归。

您也可以浏览我们先前标记为“回归”和“计数数据”的问题


编辑:@MichaelM提出了一个很好的观点。这看起来确实像计数数据的时间序列。(并且缺少1992年和1994年的数据,对我来说,这些年份的每一年都应该为零。如果是这样,请包括在内。零是有效数字,并且确实包含信息。)鉴于此,我还要建议仔细阅读我们之前标记为“时间序列”和“计数数据”的问题


4
很好,但是普通最小二乘是一个估计程序,而不是模型。您知道这一点,但这是一个普遍的困惑,因此我们不应该沉迷于此。
尼克·考克斯

@NickCox:好点。我编辑了我的帖子。
Stephan Kolassa '16

11

计数数据选择的最“常用”分布是泊松分布。最常见的是使用其首次实际使用的示例进行说明:

拉迪斯劳斯·博特凯维奇(Ladislaus Bortkiewicz)在1898年提出了这一分配的实际应用,当时他的任务是调查普鲁士军队中因踢马意外丧生的士兵人数。该实验将Poisson分布引入了可靠性工程领域。

λλ

Ëÿ|Xβ=λ=经验值β0+β1个X1个++βķXķ

λ

将Poisson分布用于实际数据的问题在于,它假设均值等于方差。违反此假设的方法称为过度分散。在这种情况下,您始终可以使用拟泊松模型,非泊松对数线性模型(对于大量泊松可以通过正态分布进行近似),负二项式回归(与泊松密切相关;请参见Berk和MacDonald,2008年)或其他模型,如Stephan Kolassa所述

对于泊松回归的一些友好介绍,您还可以查看Lavery(2010)或Coxe,West和Aiken(2009)的论文。


Lavery,R.(2010年)。动画指南:泊松回归简介。NESUG纸,sa04。

Coxe,S.,West,SG和Aiken,LS(2009)。计数数据分析:泊松回归及其替代方法的简要介绍。人格评估杂志,91(2),121-136。

Berk,R。和MacDonald,JM(2008)。过度分散和泊松回归。Journal of Quantitative Criminology,24(3),269-284。


2
您可以使用泊松回归来拟合泊松分布。响应具有泊松分布并不是绝对的泊松回归要求。泊松回归可以很好地适用于各种正面反应,包括测量变量。谨慎对待推理的标准错误是一个好主意,但这很容易处理。例如参见blog.stata.com/2011/08/22/...
尼克·考克斯

@NickCox是正确的,但是问题严格地是关于计数数据的,因此可能无需深入介绍Poisson回归的其他用法。
蒂姆

3
无需详细说明,达成一致;但是有一定理由推动Poisson回归。其实用性鲜为人知。至少应该在更多中间文本中使用它。而且,在这里更重要的是,我完全不同意,一旦方差不等于等于您应该使用其他模型,那是不可能的。这混淆了两个截然不同的问题。
尼克·考克斯

此外,泊松回归可以与测量变量一起使用这一事实是相关的,因为在这种情况下,均值是否等于方差甚至没有意义,因为它们具有不同的维度。因此,这种情况强调了要求不是这样。
尼克·考克斯

3
经验值Xb

0

泊松或负二项式是两种广泛使用的计数数据模型。我选择负二项式,因为它有更好的方差假设。


3
“更好”是什么意思?
蒂姆

2
就目前而言,这更多是评论而不是答案。您认为可以扩展吗?您当然应该考虑Tim的评论-“更好”一词非常模糊
Silverfish

负二项式(NB)模型通过假设它是由于聚类来处理超分散(OD)计数数据。然后,它使用Poisson分布在“内部”和gamma分布在“之间”结构的随机拦截模型。哪个更好取决于您对OD的假设。如果您认为OD的程度随群集大小而变化,则NB可能会有所帮助。如果您假设OD与簇大小成正比,则拟泊松有此假设。如果OD只是高斯噪声,则NB估计将有偏差。泊松偏差将较少,但使用OD时标准误差可能会太小。
Mainard '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.