我正在阅读A. Agresti(2007),《分类数据分析简介》,第二版。版本,并且不确定我是否正确理解本段(第106页,4.2.1)(尽管应该很容易):
在上一章有关打ing和心脏病的表3.1中,每天有254名受试者报告打呼night,其中30名患有心脏病。如果数据文件具有分组的二进制数据,则数据文件中的一行报告的样本量为254,其中30种是心脏病病例。如果数据文件具有未分组的二进制数据,则数据文件中的每一行都引用一个单独的主题,因此30行包含1的心脏病,而224行包含0的心脏病。这两种数据文件的ML估计值和SE值都相同。
转换一组未分组的数据(1个相关数据,1个独立数据)将花费更多的时间来包含所有信息!
在以下示例中,创建了一个(不切实际的!)简单数据集,并构建了逻辑回归模型。
分组数据的实际外观如何(变量标签?)?如何使用分组数据构建相同的模型?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())