Facebook的先知与线性回归有什么不同吗？

11

因此，我对Facebook先知的了解是，它基本上将时间序列分解为趋势和季节性。例如，加性模型应写为：

ÿ （ Ť ） = G （ Ť ） + s （ Ť ） + H （ Ť ） + Ë_{Ť}

$y(t) = g(t) + s(t) + h(t) + e_t$

与

$t$ 时间
$g(t)$ 趋势（可以是线性或逻辑）
$s(t)$ 季节性（每天，每周，每年...）
$h(t)$ 假期
$e_t$ 错误

我的问题是：不能通过简单的线性回归来完成吗？如果我们比较一下结果，结果会有什么不同？为什么？

— 华
source

是的，您可以使用线性模型执行此操作。我不了解先知，但是如果这就是它所做的全部，那么就没有区别。

— user2974951

13

这里的问题是要找到一个方程，将观察到的数据解析为信号和噪声。如果您的数据很简单，那么您的回归方法可能会起作用。应该注意了解他们对先知所做的一些假设。您应该更好地了解Prophet的功能，因为它不仅适合简单的模型，而且还尝试添加一些结构。

例如，我在阅读他们写得很好的介绍后所进行的一些思考可能会帮助您进行评估。如果我误解了他们的方法，我谨此致歉，如果这样的话，我想纠正一下。

1）他们的榜样在趋势上有两个断点，但他们只抓住了最明显的一个。

2）他们忽略了反映遗漏的随机序列或使用Y的历史值指导预测的值的任何和所有ARIMA结构。

3）他们忽略了用户建议的随机和确定性序列的任何可能的动力学（超前和滞后效应）。先知的因果回归效应只是同时发生的。

4）未尝试识别序列或季节脉冲中的阶跃/电平变化，例如由于某种未知的外部事件而导致的中途变化。Prophet假定“简单的线性增长”，而不是通过研究其他可能性来验证。有关此示例，请参阅使用Facebook Prophet和R预测在线订阅业务的重复订单

5）正弦和余弦是处理季节性问题的一种不透明的方法，而季节性影响例如星期几，月日，星期几，年月是在处理人为（与人！！）效应时要有效得多。

将年度模式的频率建议为365.25几乎没有意义，因为我们没有像去年那样在同一天执行相同的操作，而每月活动的持续性要强得多，但是先知似乎没有提供11个每月指标选项。每周频率为52几乎没有意义，因为我们每年没有52周。

6）没有尝试验证错误过程是否是高斯的，因此可以进行有意义的有意义的检验。

7）不必担心模型误差方差是否均匀，即在建议的加权最小二乘的特定时间点没有确定性的变化。无需寻找最佳功率变换来处理与期望值成正比的误差方差，何时（以及为什么）应采用（数字）分布的对数？。

8）用户必须预先指定事件/假日周围所有可能的超前和滞后效应。例如，每日销售通常在11月下旬开始增加，这反映了圣诞节的长期影响。

9）不必担心由此产生的错误没有结构，因此建议通过诊断性检查来改进模型以改进模型。

10）显然不关心通过删除非重要结构来改进模型。

11）没有工具可以获取一系列模拟预测，在这些模拟预测中，通过引导模型误差并允许可能出现的异常，置信范围不一定是对称的。

12）让用户对趋势进行假设（趋势断点数和实际断点数）可以在面对大规模分析时带来不必要的/无法使用的灵活性，其名称专为免提大规模应用而设计。

— 爱尔兰统计局
source

同意，但是我要说的是，这些东西更接近于“好拥有”功能，然后是“必须拥有”。您可能缺少一些高质量的预测模型。但是，正如我所说，好的观点和不错的评论。

— 蒂姆

您的反思非常正确……“数据”的内在复杂性是主要问题。简单的数据需要简单的解决方案复杂的数据表明“拥有”很可能变成“需要”。只有您的数据可以确定！奥卡姆（Occam）的剃刀浮现在脑海..

— IrishStat

@ Timstats.stackexchange.com/ questions/ 417908/…线程建议实际上“必须具备”的某些功能“必须具有”才能挫败诸如“简单线性趋势”之类的不当假设。

— IrishStat

10

我没有用过，但这是他们的预印本的摘要（强调我的意思）：

预测是一项常见的数据科学任务，可帮助组织进行容量规划，目标设置和异常检测。尽管具有重要意义，但要生成可靠的高质量预测仍存在严峻挑战，尤其是在存在各种时间序列且具有时间序列建模专业知识的分析人员相对较少的情况下。为了解决这些挑战，我们描述了一种实用的“大规模”预测方法，该方法将可配置模型与环路分析器性能分析相结合。我们提出了具有可解释参数的模块化回归模型，可以由具有时间序列领域知识的分析师直观地调整。我们描述了性能分析，以比较和评估预测程序，并自动标记预测以进行手动检查和调整。帮助分析师最有效地利用其专业知识的工具可以对业务时间序列进行可靠，实用的预测。

在介绍中：

在创建业务预测的实践中，我们已经观察到两个主要主题。首先，全自动预测技术可能难以调整，而且通常过于僵化，无法纳入有用的假设或启发式方法。其次，负责组织中数据科学任务的分析人员通常对他们所支持的特定产品或服务具有深厚的专业知识，但通常没有时间序列预测方面的培训。

因此在我看来，他们并没有声称自己在统计上取得了长足的进步（尽管它的功能远远超过您概述的简单模型）。相反，他们声称他们的系统使大量没有时间序列分析专业知识的人可以应用自己的领域专业知识和特定于系统的约束来生成预测。

如果您已经具有时间序列分析和复杂模型编码方面的专业知识，那么这可能对您没有太大帮助。但是，如果他们的主张是正确的，这可能会非常有用！科学（和商业）的发展不仅因为有了新的想法，还因为有了新的工具及其传播（请参阅有关主题和响应的 Freeman Dyson的这篇简短文章）。

以统计本身为例：R并不代表统计的进步，但是它具有巨大的影响力，因为它使更多的人更容易进行统计分析。它是建立了大量统计理解的基础。如果幸运的话，先知也许会扮演类似的角色。

戴森（Dyson），弗里曼（Freeman J）。“科学主要是由思想驱动还是由工具驱动？”。科学338，没有。6113（2012）：1426-1427。

— mkt-恢复莫妮卡
source

0

您缺少可以在线性模型中实现的变化点，分段线性样条曲线。

没错，至少在极限情况下，它是线性正则回归（L1和L2正则化）。

请注意，有一个单独的先知模型，即物流增长。

同样，您假设季节性因素是可加的，但它们也支持乘性季节性效应，至少对于增长模型而言，这似乎更为自然。

— seanv507
source

面对日志的先知假设在这场有价值的讨论中f如飞来 …… stats.stackexchange.com/questions/18844/ … 其中，根据期望值与模型误差方差或特定基于领域知识的非线性推定。

— IrishStat

@IrishStat谢谢您的意思（我忘记了他们进行对数变换以实现乘法季节性，他们使用STAN，所以我相信他们可以使用非线性模型来代替对数）。您能解释一下乘法季节性和“非线性推定”假设之间的区别吗？

— seanv507

如果您查看@whuber的答案stats.stackexchange.com/questions/298/…，他建议“在科学理论表明时”进行转换，这可能是基于领域知识的非线性假设。当发现误差的方差与期望值成正比时，经验幂转换很有用，否则可能只是“窗口修整”。

— IrishStat

0

一个简单的线性回归可以完成很多工作，但Prophet并不能完成所有工作。仅举一个例子，您可以为趋势指定自己的变化点候选者，Prophet会将其用作先验。

— 阿克萨卡尔族
source