我想在拟合逻辑回归模型的同时将计数数据用作协变量。我的问题是:
- 通过使用非负整数计数作为自变量,我是否违反了逻辑模型(更一般地说,广义线性模型)的任何假设?
我在文献中发现了很多关于将计数数据用作结果而不是协变量的参考。参见非常清晰的论文:“ NE Breslow(1996)广义线性模型:检验假设和加强结论,意大利国家生物技术大会,1995年6月,科尔托纳”,网址为 http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf。
松散地说,似乎glm假设可以表示为:
- 残差
- 链接函数必须正确表示因变量和自变量之间的关系;
- 没有异常值
是否每个人都知道是否存在其他建议/技术问题,可能建议使用其他类型的模型来处理计数协变量?
最后,请注意,我的数据包含的样本相对较少(<100),并且计数变量的范围可以在3-4个数量级内变化(即某些变量的值在0-10范围内,而其他变量的值可以在0-10之间0-10000)。
一个简单的R示例代码如下:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################