汇总时间序列以使其看起来更有意义是否有效?


10

我还有另一个关于时间序列的问题。

我有一个数据集,可以提供三年内精神病医院的暴力事件的每日记录。在上一个问题的帮助下,我一直在摆弄它,现在对此感到高兴。

我现在要知道的是,每日系列非常嘈杂。它从0时到20时上下波动剧烈。使用黄土图和预测软件包(我可以为像我这样的新手强烈推荐),我得到一条完全平坦的线,且预测的置信区间很大。

但是,每周或每月汇总数据更有意义。它们从系列开始时就开始下降,然后在中间再次上升。黄土图和预测包都产生了看起来更有意义的东西。

确实感觉有点像作弊。我是不是更喜欢聚合版本,因为它们看起来不错,没有任何实际有效性?

还是计算移动平均值并以此为基础会更好?恐怕我对所有这些背后的理论还不够了解,无法对可以接受的东西充满信心

Answers:


8

这完全取决于您的时间序列以及您想要发现/验证的效果等。

这里重要的是,您的数据中包含什么样的时间段。对数据进行频谱分析,然后查看数据中共有哪些频率。

无论如何,当您决定显示汇总值时,您不会撒谎。当您希望观察数周内发生的效果时(例如,炎热的夏天会发生更多暴力事件),这是正确的选择。

也许您也可以看看Hilbert Huang变换。这将为您提供固有模式功能,这些功能对于视觉分析非常方便。


12

在预测中汇总数据以增加信噪比是很常见的。例如,有几篇论文涉及时间聚合对经济学预测准确性的影响。您可能会在每日数据中看到的是一个微弱的信号,被噪声淹没,而每周和每月的数据则显示了更明显的更强信号。

是否要使用时间聚合完全取决于您的目的。如果您需要预测日常事件,那么汇总将不会有太大用处。如果您有兴趣探索几个协变量对发病率的影响,并且您每天都可以使用所有数据,那么我可能会使用每日数据,因为它将提供更大的样本量,并且可能使您能够检测到效果更容易。

由于您正在使用预测包,因此大概您对时间序列预测很感兴趣。那么,您需要每日预测,每周预测还是每月预测?答案将确定聚合是否适合您。


1

您面临的问题(困境)似乎是选择最佳(或良好)采样间隔来修改预测的问题之一。首先,请参阅布朗著名著作的链接文本,这也可以作为参考。一切归结为“在不及时注意到变更的风险与数据的固有可变性以及频繁修改计划的成本之间取得平衡”。如果您不准备每天修改您的预测(以及激发它的决策),那么您实际上并不需要使用(最嘈杂的)每日数据。重要的一点(通常在现代预测文献中会遗漏)是,预测仅是帮助做出决定所必需的(除非也知道如何从中获得乐趣)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.