短时间序列值得建模吗?


14

这是一些背景。我有兴趣确定两个环境变量(温度,营养水平)如何影响11年内响应变量的平均值。每年,都有超过10万个位置的数据。

目的是确定在11年的时间段内,响应变量的平均值是否已响应环境变量的变化(例如,温度升高+更多养分将=更大响应)。

不幸的是,由于响应是平均值(不看平均值,只有规则的年际变化会淹没信号),因此回归将是11个数据点(每年1个平均值),并带有2个解释变量。在我看来,即使数据集非常小,线性正回归也很难被认为是有意义的(除非关系非常强,否则甚至不满足名义上的40点/变量)。

我做这个假设对吗?谁能提供我可能会缺少的其他想法/观点?

PS:一些警告:没有等待更多年就无法获取更多数据。因此,可用数据是我们真正需要处理的。


您是否尝试过绘制数据?我要说的是,您的环境变量和您的响应变量之间的相关强度会影响答案。
rm999 2011年

每年有超过10万个位置的数据。 ”您实际上观察到所有位置还是仅观察基于它们的平均值?如果是,那么您可以按照线性上下文中的@crayola建议使用面板数据模型。尽管@GaBorgulya提到的某些特殊生态模型可能需要很少的信息来进行参数校准而不是估算。
Dmitrij Celov 2011年

Answers:


8

少量的数据点限制了您可以在数据上使用哪种模型。但是,这并不一定意味着开始建模没有任何意义。只有很少的数据,如果影响很强且分散性很弱,您将只能检测到关联。

另一个问题是哪种模型适合您的数据。您在标题中使用了“回归”一词。该模型应在某种程度上反映您对现象的了解。这似乎是一个生态环境,因此前一年也可能具有影响力。


4

我看到的生态数据集少于11个点,所以我想说,如果您非常小心,可以使用有限的数据得出一些有限的结论。

给定实验设计的参数,您还可以进行功率分析,以确定可以检测到的效果有多小。

如果进行一些仔细的分析,您可能也不需要每年扔掉额外的差异



4

从根本上对数据建模(尤其是对时间序列进行建模)假设您已以足够的频率收集数据以捕获感兴趣的现象。最简单的示例是正弦波-如果您以n * pi的频率收集数据,其中n是整数,那么您将看不到任何东西,只有零,并且完全错过了正弦波模式。有一些关于采样理论的文章,​​讨论了应该多久收集一次数据。


3

我不确定我是否理解这一点:“不幸的是,由于响应是平均值(如果不看平均值,只有规则的年际变化会淹没信号)”

通过仔细建模,在我看来,将其建模为面板数据可以收获很多。根据数据的空间范围,在任何一年中,数据点所处的温度可能会有很大差异。平均所有这些变化似乎很昂贵。


3

我要说的是,测试的有效性与数据点数量的关系较小,而与假设您拥有正确模型的有效性的关系更大。

例如,用于生成标准曲线的回归分析可能仅基于3个标准(低,中和高),但是由于有充分的证据表明这些点之间的响应是线性的,因此该结果非常有效。

另一方面,如果将错误的模型应用于数据,则即使具有1000个数据点的回归也将存在缺陷。

在第一种情况下,模型预测与实际数据之间的任何变化都是由于随机误差造成的。在第二种情况下,模型预测与实际数据之间的某些差异是由于选择错误模型而产生的偏差。


1

识别模型所需的观察次数取决于数据中信噪比和模型的形式。如果我得到数字1,2,3,4,5,我会预测6,7,8,.... Box-Jenkins模型识别是一种确定基础通用术语的方法,就像对“给孩子的数字智力”。如果信号很强,那么我们需要更少的观察,反之亦然。如果观察到的频率表明可能存在“季节结构”,那么我们需要重复此现象,例如至少3个季节(最好是更长的时间),以提取经验(从基本描述性统计数据(acf / pacf)中识别出来)。


-1

也许您可以尝试将时间序列作为线性方程组处理,并通过高斯消除法解决。当然,在这种情况下,您将自己限制在可用数据上,但这是您唯一要付出的代价。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.