将计数数据用作自变量是否违反任何GLM假设?


14

我想在拟合逻辑回归模型的同时将计数数据用作协变量。我的问题是:

  • 通过使用非负整数计数作为自变量,我是否违反了逻辑模型(更一般地说,广义线性模型)的任何假设?

我在文献中发现了很多关于将计数数据用作结果而不是协变量的参考。参见非常清晰的论文:“ NE Breslow(1996)广义线性模型:检验假设和加强结论,意大利国家生物技术大会,1995年6月,科尔托纳”,网址http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf

松散地说,似乎glm假设可以表示为:

  • 残差
  • 链接函数必须正确表示因变量和自变量之间的关系;
  • 没有异常值

是否每个人都知道是否存在其他建议/技术问题,可能建议使用其他类型的模型来处理计数协变量?

最后,请注意,我的数据包含的样本相对较少(<100),并且计数变量的范围可以在3-4个数量级内变化(即某些变量的值在0-10范围内,而其他变量的值可以在0-10之间0-10000)。

一个简单的R示例代码如下:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

欢迎光临本站!备注:如果要签名,请使用个人资料(尤其是“关于我”框)。

11
通常,在GLM模型,预测(“独立”)的变量只是应该是一些已知常量,有对他们分布假设!因此,将计数数据用作预测变量没有错。
kjetil b halvorsen 2012年

1
是的,这是一个很好的答案。然而,在这里描述的IV的极限范围内,明智的方法是评估数据的影响,检查拟合优度,尤其是评估非线性关系的可能性。这样做是希望该关系实际上非线性的,并且IV的重新表达(例如根或对数)会将其线性化,从而同时消除一些影响问题。这可能是@ user14583试图在其答案中指出的内容。
ub

@kjetilbhalvorsen-我同意“没有分布假设”,但是我认为您并不是要说“已知”或“常数”,因为这两个词都不适合。
rolando2 2012年

4
从它们不是随机的意义上来说,它们是“常数”:没有分布。在假定它们没有错误地进行测量的意义上,它们是“已知的”,因此测量值实际上是在数据生成机制中起作用的值。GLM模型假定所有随机性都在响应机制中,这通常是可疑的!
kjetil b halvorsen,2012年

Answers:


5

这里有些细微差别,可能会造成一些混乱。

您声明自己了解逻辑回归的假设包括“ iid残差...”。我认为这不是很正确。我们通常会说一般线性模型(即回归),但是在那种情况下,这意味着残差彼此独立,相同的分布(通常是正态)的均值(0)和方差(即恒定方差:方差的均质性/均方差)。但是请注意,对于伯努利分布二项分布,方差是均值的函数。因此,除非协变量与响应完全无关,否则方差不能为常数。那将是一个限制性太强的假设,以至于使逻辑回归毫无价值。我注意到,在您引用的pdf摘要中,它列出了以“观测值的统计独立性”开头的假设,我们可能会称其为“假设” i-but-not-id(无意太夸张)。

接下来,就像@kjetilbhalvorsen在上面的注释中指出的那样,协变量值(即您的自变量)被假定为固定在广义线性模型中。也就是说,没有做出特殊的分布假设。因此,它们是否为计数,它们的范围是从0到10,从1到10000还是从-3.1415927到-2.718281828都无关紧要。

但是,正如@whuber所指出的,要考虑的一件事是,如果您有少量的数据在协变量维度中非常极端,那么这些点可能会对分析结果产生很大的影响。也就是说,仅由于这些要点,您可能会得到一定的结果。考虑这一点的一种方法是通过对模型进行拟合(包括和不包括这些数据)来进行敏感性分析。您可能会相信,删除这些观察值,使用某种形式的稳健统计分析或转换这些协变量以最小化这些点将具有的极端杠杆作用,是更安全或更合适的选择。 我不会将这些考虑因素描述为“假设”,但是在开发合适的模型时,它们当然是重要的考虑因素。


1

我肯定会检查的一件事是您的自变量的分布属性。通常,通过计数数据,您会看到一些中等到严重的右偏。在这种情况下,您可能希望转换数据,因为您将失去对数线性关系。但是不行,使用逻辑模型(或其他GLM)很好。


3
右偏如何失去“对数线性关系”?
Glen_b-恢复莫妮卡(Monica)2012年

3
这句话对我来说似乎是不正确的。像@Glen_b一样,我不认为这将必然失去对数线性关系。无论如何,最好直接检查这种关系(例如,通过绘图)。
彼得·弗洛姆

2
IV的非线性变换肯定会将对数线性关系更改为@Peter。这个答案对我来说基本上是正确的。
ub

1
@whuber我同意一个变量的非线性变换将改变它与另一个变量之间的关系。这似乎很清楚。但是从什么样的关系到什么样的关系呢?为什么不直接检查关系而不是假设它将如何改变?另外,答案似乎表明该人失去对数线性关系。
彼得·弗洛姆

2
这是@Peter的好观点。但是有些人确实想改变这种关系。这不一定是一个错误的概念。我同意直接检查是正确的程序:它将建议如何重新表达所涉及的IV,以建立线性关系。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.