什么是准二项式分布(在GLM中)?


30

我希望有人能够提供关于准二项式分布及其作用的直观概述。我对这些要点特别感兴趣:

  1. 准二项式与二项式分布有何不同。

  2. 当响应变量是一个比例(示例值包括0.23、0.11、0.78、0.98)时,准二项式模型将在R中运行,而二项式模型则不会。

  3. 当TRUE / FALSE响应变量过度分散时,为什么要使用准二项式模型。

Answers:


20
  1. 二项式分布和准二项式之间的差异可以从它们的概率密度函数(pdf)中看出,它们表征了这些分布。

    二项式pdf:

    PX=ķ=ñķpķ1个-pñ-ķ

    准二项式pdf:

    PX=ķ=ñķpp+ķϕķ-1个1个-p-ķϕñ-ķ

    拟二项式分布与二项式分布相似,但有一个额外的参数ϕ(限于|ϕ|{p/ñ1个-p/ñ})试图描述不能仅由二项式分布解释的数据中的其他方差。

    (请注意,准二项式分布的均值为而不是本身。)p一世=0ññϕ一世ñ-ķp

  2. 我不确定这一点,也许R中的glm函数会在准二项式模式下增加权重以解决这一问题?

  3. 额外参数的目的是估计数据中的额外方差。每个广义线性模型(GLM)都会对结果/响应做出分布假设,并基于此分布最大化数据的可能性。这是分析师做出的选择,如果您认为需要考虑数据的更多差异,则可以选择准二项分布,以为glm建模。测试是否需要拟合拟二项式模型而不是二项式模型的一种好方法是拟合拟二项式模型,并测试参数是否为0。ϕϕ


2
优秀的亚历杭德罗,现在如何测试ϕ参数是否为0?
Juanchi'7

2
注意,在Rglm.fitbinomialquasibinomial是完全一样的,不同之处在于quasibinomial(1)移除整数检查,和(2)返回NA的AIC。有关更多详细信息,请参见此答案
miguelmorin

-1在glms的背景下,这种“准二项式”分布似乎与准二项式可能性完全无关,因此很难理解为什么会有如此多的投票。
Jarle Tufto

14

准二项式不一定是特定的分布。它描述了广义线性模型中方差与均值之间关系的模型,它是乘以二项式均值表示的二项式方差。ϕ

有一种适合这种规格的分布(很明显的一种-缩放的二项式),但这不一定是拟合准二项式模型的目的。如果您要拟合的数据仍为0-1,则无法按二项式缩放。

因此,通过参数,准二项式方差模型可以更好地处理方差大于(或小于)二项式数据的数据,而不必完全是实际的分布。ϕ

当响应变量是比例变量(示例值包括0.23、0.11、078、0.98)时,准二项式模型将在R中运行,但二项式模型将不会

回忆一下,可以在R中按比例*运行二项式模型,但是您必须正确设置它。

*我知道有三种单独的方法可以将二项式数据提供给R。我很确定那是一个。


这与拟似然估计有什么关系?
tim.farkas 2015年

2
+1(但我希望看到更全面的答案!)。按比例设置二项式GLM的三种方法可能是:stats.stackexchange.com/a/26779/28666?链接可能会有所帮助。另外,您所说的“准二项式”实际上不是一个分布与该线程中的第二个答案有何关系?
变形虫说恢复莫妮卡

1
@amoeba可以为它编写一个分布,如我的答案所述(缩放的二项式),但它不能是计数数据(除非色散参数为1,并非所有整数都是准二项式)或连续数据(它是离散的!)。人们通常将其用于计数数据,因为它具有方差结构(但在这种情况下,指数族中没有这种分布)
Glen_b -Reinstate Monica
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.