Answers:
对于为什么L1损失函数会产生中值,有一个简单的几何解释。
回想一下,我们在一个维度上工作,因此,想象一条数字线水平分布。在数字线上标出每个数据点。将手指放在线上的某个位置;您的手指将是您当前的候选估算。
假设您将手指向右移动一点,例如向右说单位。总损失会怎样?好吧,如果你的手指是两个数据点之间,并且您在一个数据点移动它,你已经通过增加总损耗为每个数据点到离开你的手指,并减少它由为每个数据指向手指的右侧。因此,如果手指右边的数据点多于左边的数据点,那么将手指向右移动会减少总损耗。换句话说,如果一半以上的数据点位于手指的右侧,则应将手指向右移动。
这会导致您将手指移向某个点,其中一半的数据点在该点上,另一半在右边。该点是中位数。
那就是L1和中位数。不幸的是,对于L2和均值,我没有类似的“全部直觉,没有代数”的解释。
通过一个更实际的示例(也适用于L2损失函数)为DW的答案添加:
想象一下一个由4栋彼此靠近(例如10米)的房屋组成的小村庄。在距离这些商店1公里的地方,您还有另一间非常孤立的房子。现在,您到达那个城镇,想要在某个地方建造自己的房子。您想住在其他房屋附近并与所有人成为朋友。考虑这两种替代方案:
您决定在到任何房屋的平均距离最小的位置(即最小化L1损失函数)。
因此,通过在村子里建房子可以达到100米的最低平均距离。更具体地说,您将在这4栋房屋的中间建造房屋,以获得平均几米的距离。事实证明,此点是“ 中位数点 ”,您可以使用中位数公式类似地获得该点。
因此,是的,有趣的是,当我们最小化距离的总和时,有点反直觉,我们不会在平均值的意义上最终处于“中间”,而在意义上中位数。这是最流行的回归模型之一OLS使用平方误差而不是绝对误差的部分原因。