为什么将MAE最小化会导致预测中位数而不是均值?


19

摘自Rob J Hyndman和George Athanasopoulos的《预测:原理和实践》教科书,特别是准确性测量部分

最小化MAE的预测方法将导致对中位数的预测,而最小化RMSE则将导致对均值的预测

有人可以对为什么将MAE最小化导致预测中位数而不是均值给出直观的解释吗?在实践中这意味着什么?

我问一个客户:“对于您来说,使平均预测更准确或避免非常不准确的预测对您而言,更重要的是什么?” 他说,使均值预测更准确具有更高的优先级。因此,在这种情况下,我应该使用MAE还是RMSE?在阅读此引文之前,我相信MAE在这种情况下会更好。现在我怀疑。

Answers:


17

退后一步,暂时忽略一下预测方面,这很有用。让我们考虑任何分布并假设我们希望使用一个数字对其进行总结。F

您很早就在统计课上学习到,将的期望值用作单个数字摘要将最小化期望的平方误差。F

现在的问题是:为什么用中位数的减少的预期绝对错误?F

为此,我经常推荐Hanley等人的“将中位数可视化为最小偏差位置”。(2001年,美国统计学家。他们确实在论文中设置了一个小程序,不幸的是,它可能不再适用于现代浏览器,但是我们可以遵循论文中的逻辑。

假设您站在一排电梯前。它们可以等距布置,或者电梯门之间的某些距离可能比其他门大(例如,某些电梯可能不正常)。在其前面的电梯,你应该站到具有最小预期散步时电梯的一个到货?请注意,此预期的行走起预期的绝对误差的作用!

假设您有三个电梯A,B和C。

  • 如果您在A前面等候,则可能需要从A步行到B(如果B到达),或从A步行到C(如果C到达)- 经过B!
  • 如果您在B前面等候,则需要从B步行到A(如果A到达)或从B步行到C(如果C到达)。
  • 如果您在C前面等候,则需要从C步行到A(如果A到达)- 经过B-或从C 步行到B(如果B到达)。

请注意,从第一个和最后一个等待位置开始,有一段距离-首先是AB,最后一个位置是BC-在电梯到达的多种情况下,您需要行走。因此,最好的选择是站在中间电梯的正前方,而不管三个电梯的布置如何。

这是Hanley等人的图1:

Hanley等人,图1

这很容易推广到三个以上的电梯。或乘电梯到达的机会不同。或者确实是无数个电梯。因此,我们可以将此逻辑应用于所有离散分布,然后传递到极限以得出连续分布。

要再次回到预测,您需要考虑针对特定未来时间段的点预测基础,存在(通常是隐式的)密度预测或预测分布,我们使用单个数字点预测对其进行汇总。上面的论点说明了为什么预测密度的中位数是使预期绝对误差或MAE最小化的点预测。(更确切地说,任何中位数都可以,因为它可能不是唯一定义的-在电梯示例中,这相当于拥有偶数个电梯。)F^

当然,如果是不对称的,则中位数可能与预期有很大不同。一个重要的例子是小批量,尤其是。确实,如果您有50%或更高的零销售几率,例如,如果销售是使用参数进行的泊松分布,那么您将通过预测平坦的零来最大程度地减少预期的绝对误差-这是不直观的,即使是高度间歇性的时间序列。我为此写了一篇论文(Kolassa,2016年,国际预测杂志)。 λLN2F^λln2

因此,如上述两种情况一样,如果您怀疑您的预测分布是(或应该是)不对称的,那么如果您希望获得无偏的期望预测,请使用。如果可以假设分布是对称的(通常是针对大批量序列),则中位数和均值会重合,并且使用还将指导您进行无偏预测-MAE更容易理解。

同样,即使对于对称分布,最小化也会导致预测偏差。我的较早答案包含一个模拟示例,该示例具有非对称分布的严格正(对数正态分布)序列,可以根据三个目标预测来有意义地预测点,具体取决于我们要最小化MSE,MAE还是MAPE。


9

Stephan的答案为您提供了一个直观的解释,说明为什么使绝对平均误差最小化会为您提供中位数。现在回答使用哪种MSE,MAE或MAPE:

MAE具有鲁棒性,这意味着它对异常值不那么敏感。想象一个错误率比其应有的误差大一百万倍的系列。在MSE上,它将拉动预测一百万/ N次(其中N是点数),而MAE将仅拉动1个单位。

不幸的是,MAE不是唯一的,因此它可能表现出某种精神分裂行为。

因此,我的建议是首先创建一个MSE,然后使用MSE参数启动MAE回归。

无论如何,请比较两个预测:如果它们之间有很大差异,则您的数据中有些气味。

在此处输入图片说明在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.