因此,我对Facebook先知的了解是,它基本上将时间序列分解为趋势和季节性。例如,加性模型应写为:
与
- 时间
- 趋势(可以是线性或逻辑)
- 季节性(每天,每周,每年...)
- 假期
- 错误
我的问题是:不能通过简单的线性回归来完成吗?如果我们比较一下结果,结果会有什么不同?为什么?
因此,我对Facebook先知的了解是,它基本上将时间序列分解为趋势和季节性。例如,加性模型应写为:
与
我的问题是:不能通过简单的线性回归来完成吗?如果我们比较一下结果,结果会有什么不同?为什么?
Answers:
这里的问题是要找到一个方程,将观察到的数据解析为信号和噪声。如果您的数据很简单,那么您的回归方法可能会起作用。应该注意了解他们对先知所做的一些假设。您应该更好地了解Prophet的功能,因为它不仅适合简单的模型,而且还尝试添加一些结构。
例如,我在阅读他们写得很好的介绍后所进行的一些思考可能会帮助您进行评估。如果我误解了他们的方法,我谨此致歉,如果这样的话,我想纠正一下。
1)他们的榜样在趋势上有两个断点,但他们只抓住了最明显的一个。
2)他们忽略了反映遗漏的随机序列或使用Y的历史值指导预测的值的任何和所有ARIMA结构。
3)他们忽略了用户建议的随机和确定性序列的任何可能的动力学(超前和滞后效应)。先知的因果回归效应只是同时发生的。
4)未尝试识别序列或季节脉冲中的阶跃/电平变化,例如由于某种未知的外部事件而导致的中途变化。Prophet假定“简单的线性增长”,而不是通过研究其他可能性来验证。有关此示例,请参阅使用Facebook Prophet和R预测在线订阅业务的重复订单
5)正弦和余弦是处理季节性问题的一种不透明的方法,而季节性影响例如星期几,月日,星期几,年月是在处理人为(与人!!)效应时要有效得多。
将年度模式的频率建议为365.25几乎没有意义,因为我们没有像去年那样在同一天执行相同的操作,而每月活动的持续性要强得多,但是先知似乎没有提供11个每月指标选项。每周频率为52几乎没有意义,因为我们每年没有52周。
6)没有尝试验证错误过程是否是高斯的,因此可以进行有意义的有意义的检验。
7)不必担心模型误差方差是否均匀,即在建议的加权最小二乘的特定时间点没有确定性的变化。无需寻找最佳功率变换来处理与期望值成正比的误差方差,何时(以及为什么)应采用(数字)分布的对数?。
8)用户必须预先指定事件/假日周围所有可能的超前和滞后效应。例如,每日销售通常在11月下旬开始增加,这反映了圣诞节的长期影响。
9)不必担心由此产生的错误没有结构,因此建议通过诊断性检查来改进模型以改进模型。
10)显然不关心通过删除非重要结构来改进模型。
11)没有工具可以获取一系列模拟预测,在这些模拟预测中,通过引导模型误差并允许可能出现的异常,置信范围不一定是对称的。
12)让用户对趋势进行假设(趋势断点数和实际断点数)可以在面对大规模分析时带来不必要的/无法使用的灵活性,其名称专为免提大规模应用而设计。
我没有用过,但这是他们的预印本的摘要(强调我的意思):
预测是一项常见的数据科学任务,可帮助组织进行容量规划,目标设置和异常检测。尽管具有重要意义,但要生成可靠的高质量预测仍存在严峻挑战,尤其是在存在各种时间序列且具有时间序列建模专业知识的分析人员相对较少的情况下。为了解决这些挑战,我们描述了一种实用的“大规模”预测方法,该方法将可配置模型与环路分析器性能分析相结合。我们提出了具有可解释参数的模块化回归模型,可以由具有时间序列领域知识的分析师直观地调整。我们描述了性能分析,以比较和评估预测程序,并自动标记预测以进行手动检查和调整。帮助分析师最有效地利用其专业知识的工具可以对业务时间序列进行可靠,实用的预测。
在介绍中:
在创建业务预测的实践中,我们已经观察到两个主要主题。首先,全自动预测技术可能难以调整,而且通常过于僵化,无法纳入有用的假设或启发式方法。其次,负责组织中数据科学任务的分析人员通常对他们所支持的特定产品或服务具有深厚的专业知识,但通常没有时间序列预测方面的培训。
因此在我看来,他们并没有声称自己在统计上取得了长足的进步(尽管它的功能远远超过您概述的简单模型)。相反,他们声称他们的系统使大量没有时间序列分析专业知识的人可以应用自己的领域专业知识和特定于系统的约束来生成预测。
如果您已经具有时间序列分析和复杂模型编码方面的专业知识,那么这可能对您没有太大帮助。但是,如果他们的主张是正确的,这可能会非常有用!科学(和商业)的发展不仅因为有了新的想法,还因为有了新的工具及其传播(请参阅有关主题和响应的Freeman Dyson的这篇简短文章)。
以统计本身为例:R
并不代表统计的进步,但是它具有巨大的影响力,因为它使更多的人更容易进行统计分析。它是建立了大量统计理解的基础。如果幸运的话,先知也许会扮演类似的角色。
戴森(Dyson),弗里曼(Freeman J)。“科学主要是由思想驱动还是由工具驱动?”。科学338,没有。6113(2012):1426-1427。
您缺少可以在线性模型中实现的变化点,分段线性样条曲线。
没错,至少在极限情况下,它是线性正则回归(L1和L2正则化)。
请注意,有一个单独的先知模型,即物流增长。
同样,您假设季节性因素是可加的,但它们也支持乘性季节性效应,至少对于增长模型而言,这似乎更为自然。