负二项式回归的假设是什么?


30

我正在使用大型数据集(机密信息,所以我不能分享太多),得出的结论是,负二项式回归是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同?

我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。

谢谢您的帮助!!

Answers:


42

我正在使用大型数据集(机密信息,所以我不能共享太多),

可能会创建一个小的数据集,该数据集具有实际数据的某些常规特征,而没有变量名或任何实际值。

得出的结论是负二项式回归将是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同?

显然不是!您已经知道您假设响应是有条件的负二项式,而不是有条件的正常。(某些假设是共享的。例如,独立性。)

首先让我更笼统地谈谈GLM。

GLM包含多元回归,但可以通过以下几种方式进行概括:

1)响应的条件分布(因变量)来自指数族,包括泊松,二项式,伽马,正态分布和许多其他分布。

2)平均响应通过链接函数与预测变量(独立变量)相关。每个分布族都有一个关联的规范链接函数-例如,在Poisson的情况下,规范链接为log。规范链接几乎始终是默认链接,但在大多数软件中,每个发行版选择中通常都有多个选择。对于二项式,规范链接是logit(线性预测变量建模,成功的对数奇数或“ 1”),对于Gamma,规范链接是logit。链接是相反的-但在两种情况下,通常都使用其他链接功能。log(p1p)

因此,如果您的回答是而预测变量是和,并通过带有对数链接的泊松回归来描述的均值与的关系:X 1 X 2XYX1X2YX

E(Yi)=μi

η 日志logμi=ηi(称为“线性预测变量”,此处的链接函数为,符号通常用于表示链接函数)ηlogg

ηi=β0+β1x1i+β2x2i

3)响应的方差不是恒定的,而是通过方差函数(均值的函数,可能乘以缩放参数)进行操作。例如,泊松的方差等于平均值​​,而对于伽玛,它与平均值的平方成正比。(准分布允许方差函数与假定的分布进行某种程度的解耦)

-

那么,与您从MLR记住的假设有哪些共同点?

  • 独立仍然存在。

  • 不再假定同方性;方差显然是平均值的函数,因此通常随预测变量而变化(因此,虽然模型通常是异方差的,但异方差的形式是特定的)。

  • 线性:模型的参数仍然是线性的(即线性预测变量为),但是预期响应与它们不是线性相关的(除非您使用身份链接函数!)。Xβ

  • 响应的分布实际上更加普遍

在很多方面,输出的解释非常相似。您仍然可以查看估算的系数除以其标准误差,例如,对它们进行类似的解释(它们是渐近正态的-Wald z检验-但人们似乎仍然称它们为t比率,即使没有理论可以他们一般-分布式)。t

嵌套模型之间的比较(通过类似“方差分析表”的设置)有些不同,但相似(涉及渐近卡方检验)。如果您对AIC和BIC感到满意,则可以计算得出。

通常使用类似类型的诊断显示,但可能难以解释。

如果您牢记差异,那么您的大部分线性回归直觉将继续存在。

这是一个示例,您可以用glm来完成某些事情,而线性回归实际上是做不到的(实际上,大多数人会为此使用非线性回归,但是GLM会更容易和更好)是正常的,建模为的函数:XYx

E(Y)=exp(η)=exp(Xβ)=exp(β0+β1x)(即,日志链接)

Var(Y)=σ2

也就是说,和之间的指数关系的最小二乘拟合。XYx

我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?

您(通常)不想转换响应(DV)。有时您可能希望变换预测变量(IV),以实现线性预测变量的线性。

我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。

是的,它可以解决过度分散的问题。但是请注意不要将条件色散与无条件色散混淆。

另一个常见的方法-如果有点杂乱无章,但我不太满意-则是准Poisson回归(过度分散的Poisson回归)。

对于负二项式,如果您指定其特定参数之一,则它属于指数族(至少通常对GLMS重新参数化的方式)。如果指定了参数,则某些软件包将适合它,而其他软件包将在GLM例程周围包装该参数的ML估计(例如通过轮廓似然),从而使过程自动化。有些会限制您使用较小的发行版集;您没有说可能使用什么软件,因此在这里很难说更多。

我认为通常,对数链接通常用于负二项式回归。

有一些入门级文档(可通过Google轻松找到),通过一些基本的Poisson GLM进行了介绍,然后进行了负二项式GLM数据分析,但是您可能更喜欢看关于GLM的书,并且可能先做一点Poisson回归只是为了习惯。


1
+1我同意COOLSerdash。这里有很多很好的信息!除了推荐的Google搜索之外,我特别推荐古吉拉特语(Gujarati)的“ Econometrics by Example”一本教科书。第12章介绍了泊松回归模型和负二项式回归模型。正如书名所暗示的,有一些例子。该书中使用的数据可从同伴网站上获得,因此是第12章本身的摘要。我建议OP对此进行检查。
Graeme Walsh 2013年

我参加聚会很晚...但是这个答案比起图书馆的一堆书,帮助我更好地理解了广义线性模型。
haff

0

我发现一些参考对于具体分析具有负二项式分布的数据很有帮助(包括列表假设),而GLM / GLMM通常是:

贝茨(Bates),DM,B.Machler,B.Bolker和S.Walker。2015。使用lme4拟合线性混合效果模型。J.统计 软件67:1-48。

Bolker,BM,ME Brooks,CJ Clark,SW Geange,JR Poulsen,MHH Stevens和J.White。广义线性混合模型:生态学和进化的实用指南。生态与进化趋势127-135。

Zeileis A.,C。Keleiber C和S. Jackman2008。RJStat中计数数据的回归模型。软件。27:1-25

Zuur AF,EN Iene,N.Walker,AA Saveliev和GM Smith。2009年。《混合效应模型和生态学扩展》,美国纽约州R. Springer。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.