统计和大数据 forecastability

3

想象一下标准的机器学习场景：您面临着庞大的多元数据集，并且您对它的理解很模糊。您需要做的是根据所拥有的东西对一些变量进行预测。像往常一样，您清理数据，查看描述性统计信息，运行某些模型，对其进行交叉验证等，但是经过几次尝试，来回尝试多个模型后，似乎没有任何效果，而且您的结果很可悲。您可能会花费数小时，数天或数周的时间解决此类问题... 问题是：何时停止？您怎么知道您的数据实际上是绝望的，所有花哨的模型对预测所有案例或其他琐碎解决方案的平均结果都不会带来什么好处？当然，这是一个可预测性问题，但是据我所知，在尝试对多变量数据进行评估之前很难评估它。还是我错了？免责声明：这个问题是受这个问题启发的。我什么时候停止寻找模特儿了？并没有引起太多关注。对此问题有详细的答案以供参考是很好的。

207 machine-learning forecasting modeling model-selection forecastability

4

评估时间序列的可预测性

假设我有从05年1月到11年12月的每月超过20.000个时间序列。每个代表不同产品的全球销售数据。如果我只想关注少数几个“实际上很重要”的产品，而不是计算每个产品的预测，该怎么办？我可以按年收入总额对这些产品进行排名，并使用经典的Pareto来精简列表。在我看来，尽管它们对底线的贡献不大，但某些产品是如此容易预测，以至于将它们拒之门外是不好的判断。在过去的10年中，每月售出价值50美元的产品听起来似乎不算什么，但它几乎不需要花太多力气就可以得出有关未来销售额的预测，我也可以这样做。所以说我将产品分为四类：高收入/易于预测-低收入/易于预测-高收入/难以预测-低收入/难以预测。我认为只留下那些属于第四组的时间序列是合理的。但是，我究竟该如何评估“可预测性”呢？变异系数似乎是一个很好的起点（我也记得前一段时间看过有关它的文章）。但是，如果我的时间序列表现出季节性/水平变化/日历效应/强烈趋势怎么办？我想我应该仅根据随机成分的可变性而不是“原始”数据之一进行评估。还是我错过了什么？以前有没有人偶然发现过类似的问题？你们会怎么做？一如既往，我们将不胜感激！

11 time-series forecasting forecastability

2

如何确定时间序列的可预测性？

预报员面临的重要问题之一是给定的序列是否可以预报？我偶然发现了彼得·卡特（Peter Catt）题为“ 熵作为可预测性的先验指标 ”的文章，该文章使用近似熵（ApEn）作为确定给定时间序列的相对度量是可预测的。文章说， “较小的ApEn值表示一组数据后面将跟随相似数据的可能性较大（规则性）。相反，较大的ApEn值表示重复相似数据的可能性较小（规则性）。因此，较大的ApEn值会带来更多混乱，随机性和系统复杂性。” 然后是用于计算ApEn的数学公式。这是一个有趣的方法，因为它提供了一个可用于相对意义上评估可预测性的数值。我不知道“近似熵”的含义，我正在阅读有关它的更多内容。有一个叫包pracma中R，可以让你计算近似熵。为了说明目的，我使用了3个不同的时间序列并计算了ApEn数。系列1：著名的AirPassenger时间序列-具有高度确定性，我们应该能够轻松进行预测。系列2：黑子时间序列-定义明确，但比系列1更难预测。系列3：随机数无法预测此系列。因此，如果我们计算ApEn，则系列1应该小于系列2，而系列3应该非常非常少。以下是为所有三个系列计算ApEn的R代码段。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 这不是我所期望的。随机序列的数目比定义明确的AirPassenger序列的数目要少。即使将随机数增加到100，我仍然得到以下值，该值小于定义明确的2 / Sunspot.yealry系列。 > series3 <- approx_entropy(rnorm(1:100)) > series3 …

10 time-series forecasting entropy maximum-entropy forecastability

Questions tagged «forecastability»