何时使用GAM与GLM


15

我意识到这可能是一个潜在的广泛问题,但我想知道是否存在可概括的假设,表明使用GAM(广义附加模型)而不是GLM(广义线性模型)?

最近有人告诉我,仅当我认为数据结构是“可加的”时才应使用GAM,即我期望x的加法能够预测y。另一个人指出,GAM与GLM进行的回归分析类型不同,当可以假定线性时,首选GLM。

过去,我一直使用GAM来获取生态数据,例如:

  • 连续时间序列
  • 当数据不具有线性形状时
  • 我有多个x来预测y,以为我认为我可以使用“表面曲线”和统计检验来可视化某些非线性相互作用

对于GAM与GLM的不同之处,我显然不了解。我认为这是一个有效的统计检验,(而且我看到GAM的使用有所增加,至少在生态期刊中如此),但是我需要比其他回归分析更好地了解何时使用了GAM。


当线性预测变量线性依赖于某些预测变量的未知平滑函数时,将使用GAM。
user2974951

1
区别是模糊的,因为您可以在GLM中表示数字协变量,例如通过样条曲线。
Michael M

3
尽管区别不清晰,但由于不需要glm如此严格的可加性,gam的行为也可以表示smae方式,但最大的区别在于:gam需要特殊的方法,因为估计不是通过投影进行的,而是通过平滑进行的。我不明白这实际上意味着什么。
kjetil b halvorsen

GLM GAM。
usεr11852

Answers:


14

imho的主要区别在于,尽管线性或广义线性的“经典”形式,模型都假设因变量和协变量之间的关系是固定的线性或其他参数形式,但GAM并不先验地假设此形式的任何特定形式关系,并且可以用来揭示和估计协变量对因变量的非线性影响。更详细地,而在(广义)线性模型的线性预测是的加权和n协变量,i=1nβixi,在GAMS该术语是由光滑函数的总和,例如替换i=1nj=1qβisj(xi),其中s1(),,sq()是光滑基函数(例如三次样条),q是基础维度。通过组合基本函数,GAM可以表示大量的函数关系(为此,它们依赖于这样的假设,即真实关系可能是平滑的,而不是摇摆不定的)。他们基本上是GLMS的延伸,但是它们被设计的方式,使他们成为揭露数值协变量的非线性效应,并为“自动”的方式这样做(从黑斯蒂和Tibshirani原创文章特别有用,他们有“的完全自动化的优势,即统计学家无需进行任何“侦探”工作


2
好吧,但是正如评论中所说,所有这些都可以用glm来完成...我怀疑主要区别是实用的。R实现中mgcv有很多您无法做的事情glm,但是也可以在该框架中完成……
kjetil b halvorsen

是的,我同意您的观点,GAM是GLM的扩展。但是,问题是关于何时使用GAM以及何时使用GLM,在我看来,op意味着GLM的“经典”形式,通常不包含一组基础函数作为预测变量,也不用于揭示/近似未知的非线性关系。
matteo

谢谢-这很有帮助。是的,我在谈论经典的GLM
mluerig

@ matteo还有两件事:i)“真正的关系很可能是平稳的,而不是摇摆不定的”是什么意思?和ii)“对于揭示数字协变量的非线性效应特别有用”-如何描述/量化非线性(例如mgcv)?
mluerig

真正的关系实际上可能并不平滑,但是GAM通常通过在似然最大化过程中添加“摆动”惩罚(通常实现为估计函数的二阶导数的积分平方的一部分)来控制模型的复杂性。数值协变量的非线性影响意味着,特定数值变量对因变量的影响可能不会例如随变量值单调增加/减少,而是具有未知的形状,例如局部最大值,最小值,拐点。 ..
matteo

14

我要强调,GAM比GLM灵活得多,因此在使用时需要格外小心。权力越大,责任就越大。

您提到了它们在生态中的用途,我也注意到了。我在哥斯达黎加,看到了在雨林中进行的某种研究,那里的一些研究生已经将一些数据输入到GAM中,并接受了其疯狂复杂的平滑器,因为该软件是这样说的。除了幽默/令人钦佩的事实,他们严格地包含了一个脚注,证明了他们使用了GAM以及由此产生的高阶平滑器这一事实,这真令人沮丧。

您不必完全了解GAM如何使用它们,但是您确实需要考虑数据,当前问题,软件自动选择更平滑的订单等参数,您的选择(您指定的平滑对象,交互, (如果更合理的话),以及结果的合理性。

做很多图并查看平滑曲线。他们会在数据很少的区域发疯吗?当您指定低阶平滑器或完全删除平滑时会发生什么?对于该变量来说,7度平滑度是否更现实,是否可以交叉验证其选择,但是否过度拟合?您是否有足够的数据?它是高质量的还是嘈杂的?

我喜欢GAMS,并认为他们对数据探索的了解不足。它们只是超灵活的,如果您不加严格地进行科学学习,与GLM这样的简单模型相比,它们将带您进入统计领域。


1
我想我通常会做那些研究生的工作:将我的数据扔进gam中,然后对如何mgcv处理我的数据感到眼花azz乱。我尝试与参数保持一致,然后检查预测值与数据的匹配程度。您的评论会提醒您更严格-也许最终会得到西蒙·伍兹的书!
mluerig

哎呀,我什至会使用平滑器来探索变量,然后将自由度固定为一个低值,或者消除平滑并使用平方值,如果平滑器基本上是二次方的话。例如,对于年龄效应,二次方有意义。
韦恩

@Wayne,我正是来这里寻求有关GAM的数据探索的答案的,并看到您指出了这一点。您如何使用GAM进行数据探索?以及您将如何决定是否需要GAM或GLM是否足够。简单地运行一个简单的GAM,在其中运行响应,然后依次预测每个潜在的预测变量,将其作图,并查看该关系是否需要GAM(即非线性和非单调关系),是否有意义?
Tilen

6

我没有信誉可以简单地添加评论。我完全同意韦恩的评论:权力越大,责任就越大。GAM可能非常灵活,我们经常获得/看到疯狂复杂的平滑器。然后,我强烈建议研究人员限制平滑函数的自由度(结数),并测试不同的模型结构(交互作用/无交互作用等)。

可以考虑在模型驱动方法(尽管边界模糊,我将在该组中包括GLM)和数据驱动方法(例如,人工神经网络或承担完全相互作用的非线性变量影响的随机森林)之间考虑GAM。因此,我并不完全同意Hastie和Tibshirani的观点,因为GAM仍然需要一些侦探工作(希望没有人会杀了我。)

从生态角度来看,我建议使用R软件包骗局来避免使用这些不可靠的可变疯狂复杂平滑器。它是由Natalya Pya和Simon Wood开发的,即使是双向交互,也可以将平滑曲线限制为所需的形状(例如,单峰或单调)。我认为在限制平滑函数的形状之后,GLM成为次要选择,但这只是我个人的看法。

Pya,N.,伍德,SN,2015年。形状受约束的添加剂模型。统计 计算 25(3),543–559。10.1007 / s11222-013-9448-7

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.