合并多个时间序列时应该注意哪些问题?


10

假设我有多个时间序列,例如某个地区各个站点的多个温度记录。我想获得整个区域的单个温度记录,可以用来描述区域气候的各个方面。直观的方法可能是简单地取每个时间步长上所有电台的平均值,但是我的统计蜘蛛感应(我肯定还不太了解)告诉我,这可能并不容易。尤其是,我认为对整个区域进行平均会消除一些有趣的极端温度,并且我可能会对附近站点之间的依赖性产生疑问。

如果我尝试这样的策略,还有其他方法可以克服这些问题,或者有更明智的组合此类数据的方法,还会遇到什么其他问题?

注意:答案可能比我提供的空间示例更为笼统。


1
问题可能出在“整个区域的单个温度记录”与您对区域内变化的任何兴趣之间的冲突。一个解决方案可能涉及解决这两个问题的某种方式,例如将方差划分为区域内和区域间组件。
彼得·埃利斯

@PeterEllis,是的,我隐约在想这个。出于这个问题的目的,让我们假设我不在乎区域内空间变异性。
naught101

在这种情况下,我认为您主要要担心的是相邻站点之间的依赖性。找到一种方法来减轻观测值的压力,这些观测值可以有效地复制隔壁的观测站,您应该可以。
彼得·埃利斯

@PeterEllis:好的,但是可能没有一种合理的物理方式做到这一点-车站的紧密联系并不一定意味着他们更加依赖-即。山脉相对两侧的两个近距离站点可能不像大平原上的两个远距离站点那么相似。是否有可靠的方法来统计定义依赖关系?我想,协方差...结果序列中的峰值仍然可能更少(我想这虽然反映了实际情况-宽阔区域的温度变化可能比单个地方的变化更慢更稳定)。
naught101 '04

@naught,关于您问题的空间方面,您的区域如何定义?在您的评论中,您提到山对面的两个近距离站点可能不同于大平原上的两个远距离站点。您是否考虑过根据邻近度和相似度重新定义测站区域?它们不一定必须与常规的区域边界匹配。相反,它们可以变成可以在传统地图上绘制的分析叠加层。
dav 2012年

Answers:


1

首先,我想说的是,我要添加一条评论,但我还不能这样做(代表),但是我喜欢这个问题并希望参与,所以这里有一个“答案”。另外,我看到这很旧,但是很有趣。

首先,是否可以使用像PCA这样的降维技术来压缩时间序列?如果第一个特征值很大,则可能意味着您使用特征向量将代表大多数动态。

其次,更一般地说,您对时间序列的期望用途是什么?我不知道太多,我想温度可能会变化很多。例如,如果一些温度记录在城市附近,则可能会产生“热岛”型效果。或者,横向距离的微小变化可能会导致垂直距离的较大变化-一个位置可能在海平面上,正好在海洋上,而另一个位置不是“太远”,而是海拔一公里。那些肯定会有不同的温度!

这些只是一些想法。也许其他人可以加入并给出更好的答案。


1
好点子。老实说,我不记得这个问题的背景是什么,我感到我的评论有误导性。我特别感兴趣的是不丢失所有工作站共有的可变性,而是异相。想想遍及整个大陆的气象站,冷锋越过。一个简单的空间平均数可能基本上消除了冷锋,这并不是一件好事,因为每个站点都会在不同的时间表现出强烈的冷锋。可能在每个工作站上运行某种PCA,然后以某种方式平均结果,这可能是解决该问题的一种方法。
naught101

哇,好吧,因此,如果您要描述该地区时间序列的趋势,也许您应该使时间序列固定,每个时间序列的平均值为0。您还可以尝试从中删除每日周期每一项(或仅获取每日平均值)。然后,您将获得较低频率的温度变化,每个温度变化的中心均值为0。一旦有了该温度变化,则可以使用某些降维技术(例如PCA)压缩中心+平稳时间序列。很高兴您对问题的上下文进行了讨论,b / c确实很有帮助。好东西!
rbatt 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.