Answers:
二项式分布和准二项式之间的差异可以从它们的概率密度函数(pdf)中看出,它们表征了这些分布。
二项式pdf:
准二项式pdf:
拟二项式分布与二项式分布相似,但有一个额外的参数(限于)试图描述不能仅由二项式分布解释的数据中的其他方差。
(请注意,准二项式分布的均值为而不是本身。)
我不确定这一点,也许R中的glm函数会在准二项式模式下增加权重以解决这一问题?
额外参数的目的是估计数据中的额外方差。每个广义线性模型(GLM)都会对结果/响应做出分布假设,并基于此分布最大化数据的可能性。这是分析师做出的选择,如果您认为需要考虑数据的更多差异,则可以选择准二项分布,以为glm建模。测试是否需要拟合拟二项式模型而不是二项式模型的一种好方法是拟合拟二项式模型,并测试参数是否为0。
R
与glm.fit
,binomial
和quasibinomial
是完全一样的,不同之处在于quasibinomial
(1)移除整数检查,和(2)返回NA的AIC。有关更多详细信息,请参见此答案。
准二项式不一定是特定的分布。它描述了广义线性模型中方差与均值之间关系的模型,它是乘以二项式均值表示的二项式方差。
有一种适合这种规格的分布(很明显的一种-缩放的二项式),但这不一定是拟合准二项式模型的目的。如果您要拟合的数据仍为0-1,则无法按二项式缩放。
因此,通过参数,准二项式方差模型可以更好地处理方差大于(或小于)二项式数据的数据,而不必完全是实际的分布。
当响应变量是比例变量(示例值包括0.23、0.11、078、0.98)时,准二项式模型将在R中运行,但二项式模型将不会
回忆一下,可以在R中按比例*运行二项式模型,但是您必须正确设置它。
*我知道有三种单独的方法可以将二项式数据提供给R。我很确定那是一个。