我们要求60个人列出尽可能多的亚特兰大饭店特许经营权。总体列表中包括70多家餐厅,但我们淘汰了不到10%的人提到的餐厅,剩下45家。对于这45家餐厅,我们计算了列出特许经营权的线人的比例,并且我们对根据特许经营权(对数转换)的广告预算和自成为特许经营权以来的年限来建模此比例。
所以我写了这段代码:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
正如预测的那样,这两个变量都显示出强大而显着的效果。
但是,即使我知道绝对不应该使用OLS回归对比例数据建模,但我随后编写了以下代码:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
在这种情况下,“预算”仍然是重要的预测指标,但“年”相对较弱,并不重要。
这让我担心,对估计的信心会因汇总而被人为夸大。二项式glm实际上不是对数据进行矢量化处理,从而使模型基于45 * 55 = 2,475行吗?考虑到实际上只有45家餐厅和55名线人,这是否合适?这是否需要混合效果建模?
有趣。估计的系数相同,但标准误差更为保守(在准二项式模型中,年数并不重要)。我正在查找准二项式的帮助文件,但是您能解释怎么回事吗?我的印象是准二项式主要用于过度分散。。。
—
杰里米_ _
究竟。
—
Ben Bolker 2012年
lm
和之间存在多种差异glm(...,family=binomial)
,但重要的特征之一是二项式GLM对方差做出了强有力的假设。如果数据没有过度分散,则汇总/分解没有区别。
R输出显示色散参数取为8.7。我试图弄清楚这对过度分散的影响。同时,Ben,我看到您对混合模型有很多了解。我是否可以安全地使用二项式glm而不对告密者或专营权使用混合效果(在这种情况下,我可能必须对所有数据进行矢量化处理,同时为“告密者ID”添加一列)?
—
杰里米_ _
family=quasibinomial