可以将这些数据汇总成二项式glm的比例吗?


11

我们要求60个人列出尽可能多的亚特兰大饭店特许经营权。总体列表中包括70多家餐厅,但我们淘汰了不到10%的人提到的餐厅,剩下45家。对于这45家餐厅,我们计算了列出特许经营权的线人的比例,并且我们对根据特许经营权(对数转换)的广告预算和自成为特许经营权以来的年限来建模此比例。

所以我写了这段代码:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

正如预测的那样,这两个变量都显示出强大而显着的效果。

但是,即使我知道绝对不应该使用OLS回归对比例数据建模,但我随后编写了以下代码:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

在这种情况下,“预算”仍然是重要的预测指标,但“年”相对较弱,并不重要。

这让我担心,对估计的信心会因汇总而被人为夸大。二项式glm实际上不是对数据进行矢量化处理,从而使模型基于45 * 55 = 2,475行吗?考虑到实际上只有45家餐厅和55名线人,这是否合适?这是否需要混合效果建模?


4
提示:看看会发生什么family=quasibinomial
Ben Bolker 2012年

1
有趣。估计的系数相同,但标准误差更为保守(在准二项式模型中,年数并不重要)。我正在查找准二项式的帮助文件,但是您能解释怎么回事吗?我的印象是准二项式主要用于过度分散。。。
杰里米_ _

3
究竟。lm和之间存在多种差异glm(...,family=binomial),但重要的特征之一是二项式GLM对方差做出了强有力的假设。如果数据没有过度分散,则汇总/分解没有区别。
Ben Bolker 2012年

1
R输出显示色散参数取为8.7。我试图弄清楚这对过度分散的影响。同时,Ben,我看到您对混合模型有很多了解。我是否可以安全地使用二项式glm而不对告密者或专营权使用混合效果(在这种情况下,我可能必须对所有数据进行矢量化处理,同时为“告密者ID”添加一列)?
杰里米_ _

Answers:


1

对于比例数据,由于对数将乘法转换成加法运算,因此可以在拟合之前获取因变量的对数。同样,如果也取自变量的对数,如果它们也成比例,则对多元线性回归的结果拟合意味着幂函数乘积模型,而不是加法乘积模型,即。也就是说,一个拟合。对于比例变量,这通常比线性拟合具有更高的意义,并且更有效,并且具有更高的。ÿ=CX1个ķ1个X2ķ2Xñķñlnÿ=lnC+ķ1个lnX1个+ķ2lnX2+ķñlnXñ[R2

现在,如果未改变的回归线(理想情况下是二元回归,例如Deming回归)没有合理地通过{0,0},那么它将变得更加复杂,并且将偏移比例损失函数最小化,而不是使用普通最小方块。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.