时间序列分析与机器学习？

10

只是一个普遍的问题。如果您有时间序列数据，那么什么时候使用时间序列技术（aka，ARCH，GARCH等）优于机器/统计学习技术（KNN，回归）呢？如果交叉验证中存在类似的问题，请向我指出-已查找且找不到。

time-series machine-learning

— 纳吉
source

1

相关：cs.stackexchange.com/questions/13937/…–

— 安东·

9

典型的机器学习方法假定您的数据是独立且均匀分布的，这对于时间序列数据而言并非如此。因此，与时间序列技术相比，它们在准确性方面处于劣势。有关此示例，请参阅前面的问题。机器学习和随机森林的时间序列排序过拟合。

— 汤姆·明卡
source

感谢您的答复。进一步讲，似乎机器学习更关注于发现数据中的关系，而时间序列分析更关注于正确识别数据的原因，即随机因素如何影响数据。你同意吗？

— Nagy 2014年

4

不，我不同意该摘要。

— 汤姆·敏卡

4

弗朗西斯·迪博尔德（Francis Diebold）最近在他的博客上发表了“机器学习和度量标准VI：机器学习和计量经济学之间的关键区别”。我正在提供它的简化版本，所以所有的荣誉都归功于他。（粗体字是我的。）

统计机器学习（ML）和时间序列计量经济学（TS）有很多共同点。但是，还有一个有趣的区别：ML对条件均值非线性的灵活非参数建模的强调在TS中没有扮演重要角色。<...>

[T]在大多数经济时间序列的协方差平稳（去趋势，去季节化）动力学中，重要的条件均值非线性几乎没有证据。<...>实际上，我只能想到一种已经出现的对（至少某些）经济时间序列反复重要的条件均值非线性：汉密尔顿式马尔可夫切换动力学。

[当然，房间里有一个非线性的象：恩格尔（Engle）风格的GARCH型动力学。在金融计量经济学中，有时甚至在宏观计量经济学中，它们非常重要，但它们与条件方差有关，而不是条件均值。

因此，TS中基本上只有两个重要的非线性模型，只有其中一个讲到条件均值动力学。至关重要的是，它们都是非常紧密的参数化参数，非常适合经济和金融数据的特殊功能。

因此，结论是：

ML强调以高度灵活的非参数方式逼近非线性条件均值函数。事实证明，这在TS中几乎是不必要的：不必担心太多的条件均值非线性，并且在偶尔出现的情况下，它通常具有高度专业化的性质，最好以高度专业化（严格参数化）的方式近似。

我建议在这里阅读全文。

— 理查德·哈迪
source

+1。我非常同意这个答案。典型的ML方法以非参数建模为特征，并且具有非常宽松的假设，而ARMA模型是“紧密参数”的。

— Digio'8

2

正如@Tom Minka指出的那样，大多数ML技术都采用iid输入。但是有一些解决方案：

可以将系统“内存”中所有过去的时间序列样本用作一个特征向量，即：x = [x（t-1），x（t-2），... x（tM）]。但是，这有两个问题：1）根据分仓，您可能会拥有巨大的特征向量2-有些方法要求特征向量中的特征是独立的，在此情况并非如此。
存在许多针对此类时间序列数据而专门设计的ML技术，例如隐马尔可夫模型，已非常成功地用于癫痫发作检测，语音处理等。
最后，我采用的一种方法是使用“特征提取”技术将动态回归问题（具有时间要素）转换为静态问题。例如，“主动力学模式（PDM）”方法将输入的过去特征向量（[x（t-1），x（t-2），... x（tM）]）映射到静态的特征向量（[v（ 1），v（2），.. v（L）]），将过去与系统特定的线性滤波器组（PDM）进行卷积，请参阅Marmarelis，2004年的书籍或Marmarelis，VasilisZ。“非线性生理系统的建模方法。” 生物医学工程年鉴25.2（1997）：239-251 ...

— 丹克·马斯特·丹
source