假设我有从05年1月到11年12月的每月超过20.000个时间序列。每个代表不同产品的全球销售数据。如果我只想关注少数几个“实际上很重要”的产品,而不是计算每个产品的预测,该怎么办?
我可以按年收入总额对这些产品进行排名,并使用经典的Pareto来精简列表。在我看来,尽管它们对底线的贡献不大,但某些产品是如此容易预测,以至于将它们拒之门外是不好的判断。在过去的10年中,每月售出价值50美元的产品听起来似乎不算什么,但它几乎不需要花太多力气就可以得出有关未来销售额的预测,我也可以这样做。
所以说我将产品分为四类:高收入/易于预测-低收入/易于预测-高收入/难以预测-低收入/难以预测。
我认为只留下那些属于第四组的时间序列是合理的。但是,我究竟该如何评估“可预测性”呢?
变异系数似乎是一个很好的起点(我也记得前一段时间看过有关它的文章)。但是,如果我的时间序列表现出季节性/水平变化/日历效应/强烈趋势怎么办?
我想我应该仅根据随机成分的可变性而不是“原始”数据之一进行评估。还是我错过了什么?
以前有没有人偶然发现过类似的问题?你们会怎么做?
一如既往,我们将不胜感激!