何时使用伽马GLM?


88

伽马分布可以采用多种形式,并且通过其两个参数给出了均值和方差之间的联系,它似乎适合处理非负数据中的异方差,这使得对数转换的OLS可以没有WLS或某种异方差一致的VCV估计器就无法做到。

在常规的非负数据建模中,我会更多地使用它,但是我不认识其他使用它的人,我还没有在正式的课堂环境中学习它,而我阅读的文献也从未使用过它。每当我使用诸如“伽马GLM的实际使用”之类的Google字词时,我都会提出建议将其用于Poisson事件之间的等待时间。好。但这似乎是限制性的,并且不能唯一使用。

天真的,考虑到伽玛的灵活性,伽玛GLM似乎是对非负数据建模的一种相对假设的轻松手段。当然,您需要像任何模型一样检查QQ图和残差图。但是我有什么严重的缺点想念吗?除了与“仅运行OLS”的人进行交流之外?

Answers:


57

伽玛具有对数法线共享的属性;就是说,当比例参数变化时形状参数保持恒定时(通常用于模型中的任何一种时),方差与均方成正比(常数变化系数)。

与此近似的事情经常发生在财务数据中,或者实际上在许多其他类型的数据中。

结果,它通常适用于连续,正,右偏且方差在对数刻度上几乎恒定的数据,尽管这些选择还有许多其他众所周知的(且通常很容易获得)选择属性。

此外,将日志链接与伽马GLM配合很常见(使用自然链接相对较少)。与将正常线性模型拟合到数据的对数略有不同的是,在对数标度上,伽玛在不同程度上偏斜,而法线(对数正态的对数)是对称的。这使它(伽玛)在多种情况下都有用。

我在De Jong&HellerFrees的(头顶上)已经看到过(实际数据示例)讨论过的伽马GLM的实际用途,以及许多论文。我还看到了其他领域的应用程序。哦,如果我没记错的话,Venables和Ripley的MASS在学校旷工时使用它(奎因数据;编辑:原来它实际上在MASS的Statistics Complements中,请参阅pdf的第14页p11,它有一个日志链接,但是DV的变化很小)。呃,麦库拉(McCullagh)和内德(Nelder)做了一个凝血的例子,尽管这也许是自然的联系。

然后是Faraway的书,在那里他做了汽车保险的例子和半导体制造数据的例子。

选择两个选项中的任何一个都有其优点和缺点。由于这两天都很容易适应;通常是选择最合适的东西。

这不是唯一的选择。例如,还有高斯逆GLM,它们比γ或对数正态更偏斜/更重尾(甚至更异方差)。

至于缺点,很难进行预测间隔。一些诊断显示很难解释。在线性预测变量的尺度(通常是对数尺度)上计算期望值要比对等对数正态模型难。假设检验和区间通常是渐近的。这些通常是相对较小的问题。

与对数链接对数正态回归(获取对数并拟合普通的线性回归模型)相比,它具有一些优势;一是均值预测容易。


3
应该是“伽玛”还是“伽玛”?我们知道它不是以某人命名的。我经常看到小写的“ g”。显然,该分布是为该功能命名的,该功能可以追溯到18世纪。
Nick Cox

2
该符号是我见过的是使用的唯一原因。通常,对于分布,大写通常会回响您所知道的姓氏,例如,泊松或高斯。Γ
Nick Cox

@NickCox我已按照您的建议进行了更改,并在修复“逆高斯”时进行了修复。
Glen_b

1
@Gleb_b:您是否还在对逆高斯族使用对数链接?
Dimitriy V. Masterov

@ DimitriyV.Masterov使用较少,因此很难一概而论。从我所看到的,使用带反向高斯的对数链接是很常见的,但是在某些情况下,其他链接可能也适用,例如反向链接。
Glen_b 2013年

28

这是个好问题。实际上,为什么人们不多使用广义线性模型(GLM)也是一个好问题。

警告说明:有些人将GLM用于一般线性模型,而不是此处要注意的内容。

  • 这确实取决于您的外观。例如,伽马分布已经在几十个环境科学中流行了几十年,因此使用预测变量进行建模也是自然的扩展。在水文和地貌方面有很多例子,列举了我所迷失的领域。

  • 很难确定何时使用它,而不是何时使用它的最佳答案。给定偏斜的正数据,我经常会发现自己尝试使用gamma和对数正态模型(在GLM上下文中的对数链接,正态或高斯族),然后选择哪种模型更好。

  • 直到最近,Gamma建模仍然相当困难,当然,与记录日志和应用线性回归相比,如果没有自己编写大量代码,这是肯定的。即使是现在,我猜想在所有主要的统计软件环境中也不是那么容易。

  • 我认为,尽管有优点和缺点,但在解释使用了什么和不使用了什么时,我总是会精确地归结为您确定的因素:所教的内容,人们读过的文学作品中的内容,人们听到的谈论的内容工作和会议。因此,您需要一种业余科学社会学来进行解释。大多数人似乎在自己的领域内走过狭窄的道路。松散地,在任何领域中有关建模技术的内部文献越大,该领域中人们倾向于尝试不同的东西的倾向就越小。


1
您如何确定哪个效果更好?
Dimitriy V. Masterov

7
我研究了可能性,R平方(尽管有人说),参数估计值周围的置信区间,观察值与拟合值,残差与拟合图之间的关系。根据我的经验,科学不是很完善。还有其他办法吗?
尼克·考克斯

@NickCox当观察分析与拟合,残差与拟合以及正常qq图比较时,我们应该注意什么?我了解这在型号之间可能有所不同。您能举一个伽马,泊松和负二项式的例子吗?谢谢
榻榻米

@tatami我认为这是一个全新的问题,或者更多。如果您询问,您将看到谁咬人。我从未想过伽玛模型和负二项式模型在任何项目中都是竞争对手,但这可能是想象力或经验的失败。
尼克·考克斯

13

GLM回归在GLM中,因此您可以获取许多有用的量用于诊断,例如偏差残差,杠杆,库克距离等。它们可能不如对数转换数据的相应数量那么好。

与对数正态相比,伽玛回归避免的一件事是变换偏差。Jensen的不等式意味着对数正态回归的预测将系统地产生偏差,因为它是在建模转换后的数据而不是转换后的期望值。

此外,由于伽马回归(或其他非负数据模型)可以处理比对数正态更广泛的数据,这是因为伽马回归的众数可以为0,例如您的指数分布在伽马中家庭,对数正态是不可能的。

我读过一些建议,认为将Poisson可能性用作准可能性更为稳定。它们彼此共轭。准泊松还具有能够处理精确的0值的巨大优势,这会给伽玛(尤其是对数正态)造成麻烦。


11

在我看来,它假设误差位于一系列伽玛分布上,它们具有相同的形状,并且比例根据相关公式而变化。

但是很难进行模型诊断。请注意,简单QQ图在这里不适用,因为它的分布大致相同,而我们的QQ图是具有不同方差的分布族。

天真的残差图可用来查看它们具有不同的比例尺但形状相同,通常具有长尾巴。

以我的经验,伽马GLM可能会针对某些长尾分布问题进行尝试,并且已广泛用于保险业和环境领域等。但是,这些假设难以检验,并且该模型通常无法很好地执行,因此有不同的论文主张使用具有相同问题的其他家庭分布,例如逆高斯等。在实践中,这种选择似乎取决于具有行业经验的专家判断。这限制了伽马GLM的使用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.