是否可以在混合模型中将时间作为预测变量?


10

我一直认为时间不应该用作回归(包括gam的预测)的预测因子,因为这样一来,人们就可以简单地“描述”趋势本身。如果一项研究的目的是找到诸如温度等环境参数来解释动物活动的变化,那么我想知道时间如何发挥作用?作为未测参数的代理?

在这里可以看到港口海豚活动数据的一些时间趋势:-> 在进行GAMM时如何处理时间序列中的缺口?

我的问题是:当我在模型中加入时间(以朱利安天数为单位)时,所有其他参数的90%就变得微不足道了(来自mgcv的ts收缩平滑器将其排除在外)。如果我没有时间,那么其中一些很重要...

问题是:时间是否可以用作预测变量(甚至可能需要?),或者这弄乱了我的分析?

提前谢谢了

Answers:


12

时间允许;是否需要取决于您要建模的内容?您遇到的问题是,您拥有的协变量在一起看起来似乎符合数据中的趋势,而“时间”也可以做得很好,但使用的自由度较小,因此它们会被丢弃而不是“时间”。

如果要对系统进行建模,则响应和协变量之间的关系将随时间变化,而不是对响应随时间的变化进行建模,则不要将时间作为协变量。如果目的是对响应的平均水平的变化进行建模,请包括时间,但不包括协变量。从你说的话,它会出现你想要前者,而不是后者,并且应该不会在模型中包括时间。(但请考虑以下额外信息。)

虽然有一些警告。为使理论成立,残差应为iid(如果使用相关结构放宽独立性假设,则为id)。如果您将响应建模为协变量的函数,但它们没有对数据中的任何趋势进行充分建模,则残差将具有一个趋势,这违背了理论假设,除非所拟合的相关结构可以应对该趋势。

相反,如果仅在响应中对趋势建模(仅包括时间),则残差可能存在系统变化(大约拟合的趋势),而趋势(时间)无法解释该变化,这也可能违反假设对于残差。在这种情况下,您可能需要包括其他协变量以呈现残差iid

为什么这是一个问题?好吧,当您测试例如趋势分量是否显着,或者协变量的影响是否显着时,所使用的理论将假设残差为iid。如果残差不为id,则将无法满足假设,并且p值会有偏差。

所有这些的关键是,您需要对数据的所有各个组成部分建模,以使残差符合您所使用的理论,以检验拟合的组成是否有效。

例如,考虑季节性数据,我们想拟合一个描述数据中长期变化趋势的模型。如果仅对趋势而非季节周期性变化建模,则无法测试拟合趋势是否显着,因为残差将不会被消除。对于此类数据,我们需要同时拟合具有季节成分和趋势的模型组件,以及仅包含季节性组件的空模型。然后,我们将使用广义似然比检验比较这两个模型,以评估拟合趋势的显着性。这是通过使用拟合的两个模型anova()$lme组件完成的gamm()


亲爱的加文,非常感谢您的宝贵意见。我希望我也能尽快为您提供帮助;)当我尝试使用anova进行GLRT时,它会告诉我“找不到“固定的对象”” :(
Jens

1
@Jens的电话应为anova(mod1$lme, mod2$lme)。如果您要拟合非高斯模型,则这可能无法正常工作,因为PQL方法中没有真正的对数似然,因此将准似然命名为PQL。这是使用gamm4的原因之一,但是由于lme4不允许使用它们,因此您需要对相关结构做一些事情。
加文·辛普森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.