退后一步,暂时忽略一下预测方面,这很有用。让我们考虑任何分布并假设我们希望使用一个数字对其进行总结。F
您很早就在统计课上学习到,将的期望值用作单个数字摘要将最小化期望的平方误差。F
现在的问题是:为什么用中位数的减少的预期绝对错误?F
为此,我经常推荐Hanley等人的“将中位数可视化为最小偏差位置”。(2001年,美国统计学家)。他们确实在论文中设置了一个小程序,不幸的是,它可能不再适用于现代浏览器,但是我们可以遵循论文中的逻辑。
假设您站在一排电梯前。它们可以等距布置,或者电梯门之间的某些距离可能比其他门大(例如,某些电梯可能不正常)。在其前面的电梯,你应该站到具有最小预期散步时电梯的一个不到货?请注意,此预期的行走起预期的绝对误差的作用!
假设您有三个电梯A,B和C。
- 如果您在A前面等候,则可能需要从A步行到B(如果B到达),或从A步行到C(如果C到达)- 经过B!
- 如果您在B前面等候,则需要从B步行到A(如果A到达)或从B步行到C(如果C到达)。
- 如果您在C前面等候,则需要从C步行到A(如果A到达)- 经过B-或从C 步行到B(如果B到达)。
请注意,从第一个和最后一个等待位置开始,有一段距离-首先是AB,最后一个位置是BC-在电梯到达的多种情况下,您需要行走。因此,最好的选择是站在中间电梯的正前方,而不管三个电梯的布置如何。
这是Hanley等人的图1:
这很容易推广到三个以上的电梯。或乘电梯到达的机会不同。或者确实是无数个电梯。因此,我们可以将此逻辑应用于所有离散分布,然后传递到极限以得出连续分布。
要再次回到预测,您需要考虑针对特定未来时间段的点预测基础,存在(通常是隐式的)密度预测或预测分布,我们使用单个数字点预测对其进行汇总。上面的论点说明了为什么预测密度的中位数是使预期绝对误差或MAE最小化的点预测。(更确切地说,任何中位数都可以,因为它可能不是唯一定义的-在电梯示例中,这相当于拥有偶数个电梯。)F^
当然,如果是不对称的,则中位数可能与预期有很大不同。一个重要的例子是小批量计数数据,尤其是间歇时间序列。确实,如果您有50%或更高的零销售几率,例如,如果销售是使用参数进行的泊松分布,那么您将通过预测平坦的零来最大程度地减少预期的绝对误差-这是不直观的,即使是高度间歇性的时间序列。我为此写了一篇论文(Kolassa,2016年,国际预测杂志)。 λ≤LN2F^λ ≤ LN2
因此,如上述两种情况一样,如果您怀疑您的预测分布是(或应该是)不对称的,那么如果您希望获得无偏的期望预测,请使用rmse。如果可以假设分布是对称的(通常是针对大批量序列),则中位数和均值会重合,并且使用mae还将指导您进行无偏预测-MAE更容易理解。
同样,即使对于对称分布,最小化mape也会导致预测偏差。我的较早答案包含一个模拟示例,该示例具有非对称分布的严格正(对数正态分布)序列,可以根据三个目标预测来有意义地预测点,具体取决于我们要最小化MSE,MAE还是MAPE。