为过度分散的计数数据选择Poisson回归的替代方法


12

我目前正在分析来自一系列行为实验的数据,这些实验均使用以下措施。要求此实验的参与者选择其他人可以用来帮助解决一系列10字谜的(虚拟)线索。参与者被认为这些其他人会赚钱或亏钱,这取决于他们在解决七巧板游戏中的表现。线索在帮助方面有多种。例如,对于字母NUNGRIN(运行)的字母,可能有以下三个线索:

  1. 快速行动(无益)
  2. 您在马拉松比赛中做什么(有帮助)
  3. 并非总是健康的爱好(无益)

为了衡量这一指标,我计算了参与者(为10)选择另一个对他人没有帮助的线索的次数。在实验中,我使用各种不同的操作来影响人们选择的线索的有用性。

因为有帮助/无帮助的度量存在明显的正偏斜(大部分人总是选择10条最有用的线索),并且由于该度量是计数变量,所以我一直在使用Poisson广义线性模型来分析这些数据。但是,当我对Poisson回归进行更多阅读时,我发现由于Poisson回归不能独立估计分布的均值和方差,因此它常常低估了一组数据中的方差。我开始研究泊松回归的替代方法,例如拟泊松回归或负二项式回归。但是,我承认我对这类模型还很陌生,所以我来这里寻求建议。

是否有人建议将哪种模型用于此类数据?我还有其他需要注意的考虑因素(例如,一种特定的模型比另一种模型更强大吗?)?我应该查看哪种诊断方法来确定我选择的模型是否正确处理了我的数据?


健壮的方差/协方差估计器如何放宽方差等于均值的假设呢?
boscovich 2012年

2
由于它们是计数数据,并且是非负数,所以Quassi-Poisson或负二项式回归模型又如何解决分散问题?
阿伦(Arun)2012年

1
我曾考虑过使用拟泊松或负二项式模型,但我不了解要看哪种对角线模型,以确保自己可以正确建模数据。由于存在多种选择(准泊松,负二项式和“零增量”模型),所以我也想知道是否有很好的方法在这些选择之间进行选择。例如,一种方法通常比其他方法更有效吗?
Patrick S. Forscher'5

1
这取决于数据。为什么不将它们全部适合您的数据(泊松,负二项式,零膨胀泊松和负二项式,相关模型的障碍模型)并通过说AIC或BIC进行比较?请参阅cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf,然后选择最适合您的数据的一种。您可能还会使用准可能性模型,但这只是个问题,我不太喜欢它们。
Momo

1
要检查哪种分布可能是响应的理想模型,可以使用vcd :: distplot函数。
Momo 2012年

Answers:


12

您的结果是有用提示的数目(十个之中),这是一个二项式随机变量。因此,您应该使用某种二项式回归(可能为准二项式)进行分析,以允许过度分散。请注意,泊松分布和误导性的负二项式分布适用于无界计数数据。


2
我提到了负二项式,因为它是装填者最初建议的泊松的一种过度分散的替代方案。由于每个响应者都有x / 10条线索,因此可能是二项式的,但是对于10条线索中的每条线索,第i个响应方都有固定的概率pi,并且发生是独立的。事实并非如此。
Michael R. Chernick

2
β-二项式是另一种可能性(β-二项式是对二项式,而负二项式是对泊松)。 betabinaod包中会做到这一点。
本·博克

5

如果像泊松一样可能的结果是无限的,我也建议考虑负二项式。您可能需要查阅Joe Hilbe的其中一本书。他在GEE上有一项,在负二项式回归上有一项,与Poisson回归相反。但是正如Aniko指出的那样,只有10条线索,因此每个受访者只能拥有0、1、2、3,...,10,因此泊松或负指数都不适合。


4

@Aniko的观点很好。另一个选择是Beta回归。有一篇标题为“更好的柠檬榨汁机”的论文提供了有关此方法的很多信息。


2
但是beta将用于对比例进行建模,而不是对有限的一组整数进行计数。
Michael R. Chernick

它具有更广泛的用途,@ MichaelChernick,请参阅文章,这是相当不错的。
彼得·弗洛姆

@PeterFlom它也不能仅在(0,1)间隔上处理数据。
科林
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.