最小化平方误差等于最小化绝对误差吗?为什么平方误差比后者更受欢迎?


38

当我们进行线性回归,以适应一组数据点X 1ÿ 1X 2ÿ 2x ny n,经典方法将平方误差最小化。我一直对一个问题感到困惑,该问题将最小化平方误差会产生与最小化绝对误差相同的结果y=ax+b(x1,y1),(x2,y2),...,(xn,yn)?如果没有,为什么最小化平方误差更好?除了“目标函数是可微的”之外,还有其他原因吗?

平方误差也广泛用于评估模型性能,但是绝对误差不那么受欢迎。为什么平方误差比绝对误差更常用?如果不考虑求导数,则计算绝对误差与计算平方误差一样容易,那么为什么平方误差如此普遍?有什么独特的优势可以解释其盛行吗?

谢谢。


总是存在一些优化问题,您希望能够计算梯度以找到最小/最大。
Vladislavs Dovgalecs 2015年

11
对于 X - 1 1 X 2 > | x | 如果 | x | > 1。因此,平方误差比绝对误差对大误差的惩罚更大,与绝对误差相比,对小误差的容忍程度更大。这与许多人认为合适的做事方式非常吻合。x2<|x|x(1,1)x2>|x||x|>1
Dilip Sarwate

Answers:


46

最小化平方误差(MSE)绝对不同于最小化误差的绝对偏差(MAD)。MSE提供以x为条件的y平均响应,而MAD提供以x为条件的y中值响应。yxyx

从历史上看,拉普拉斯(Laplace)最初将观察到的最大误差视为衡量模型正确性的标准。他很快转向考虑使用MAD。由于无法精确解决这两种情况,他很快考虑了差分MSE。Himself和Gauss(看似同时)推导了正规方程,它是此问题的封闭形式。如今,通过线性编程来解决MAD相对容易。但是,众所周知,线性编程没有封闭形式的解决方案。

x=0

另一个理论上的原因是,在贝叶斯设置中,当假设模型参数的先验一致时,MSE会产生正态分布误差,这被视为该方法正确性的证明。理论家之所以喜欢正态分布,是因为他们认为这是一个经验事实,而实验者则喜欢它,因为他们认为这是理论结果。

MSE之所以被广泛接受的最后一个原因是,它基于欧氏距离(实际上,它是欧氏Banach空间上投影问题的解决方案),鉴于我们的几何现实,这是非常直观的。


1
(+1)供参考Laplace!
西安

2
“理论家之所以喜欢正态分布,是因为他们认为这是一个经验事实,而实验者则喜欢它,因为他们认为这是理论结果。” - 我喜欢它。但是,高斯分布是否也没有直接的物理应用?还有关于最大熵分布的东西
shadowtalker 2015年

8
@ssdecontrol我认为这首诗是一百多年前亨利·庞加莱(HenriPoincaré)所致。 Tout le monde和croit的拥护者,我对M. Lippmann感到厌恶,这是汽车专家对数学的想象,以及数学上对事实的实验。利普曼先生有一天告诉我:“每个人都可以确定(误差是正态分布的),因为实验者认为这是一个数学定理,而数学家则认为这是一个由实验确定的事实。” 摘自Calcul desprobabilités(第2版,1912年),第1页。171
Dilip Sarwate 2015年

1
这是一个数学答案。如果我们有一个独立变量X的数据矩阵和一个列矩阵Y,那么如果有一个属性Xb = Y的矩阵b,那么我们有一个soln。通常我们不能,而且我们想要最接近精确解的b。作为数学,这是“容易”解决的。它是Y在X的列空间上的投影。投影和垂直等概念取决于度量。我们惯用的是通常的欧几里得L2度量,它给出的平方最小。mse的最小化属性是对我们具有投影的事实的重新陈述。
aginensky 2015年

1
我认为优先争论是在高斯和勒让德之间,在出版过程中,勒让德在先于高斯,而在非正式通信中,高斯在先于勒让德。我也(模糊地)意识到拉普拉斯的证明被认为是优越的。有什么参考吗?
PatrickT

31

作为替代解释,请考虑以下直觉:

当最小化错误时,我们必须决定如何惩罚这些错误。确实,惩罚错误的最直接方法是使用linearly proportional惩罚函数。通过这种功能,每个与均值的偏差都被赋予相应的比例误差。因此,距离均值两倍远将导致两倍的罚款。

更常见的方法是考虑squared proportional均值偏差与相应惩罚之间的关系。这将确保在进一步你是从平均走,成比例地增加,你会受到惩罚。使用该惩罚函数,离群值(远离均值)被视为比离均值附近的观测值更具信息性。

为了对此进行可视化,您可以简单地绘制惩罚函数:

MAD和MSE惩罚函数的比较

现在,尤其是在考虑回归估计(例如OLS)时,不同的惩罚函数将产生不同的结果。使用linearly proportional惩罚函数,与使用惩罚函数相比,回归将为异常值分配更少的权重squared proportional。因此,已知中值绝对偏差(MAD)是更可靠的估算器。因此,通常情况下,健壮的估算器可以很好地拟合大多数数据点,但会“忽略”异常值。相比之下,最小二乘拟合更趋向于离群值。这是比较的可视化:

OLS与稳健估计器的比较

现在,即使OLS几乎是标准,也肯定会使用不同的惩罚函数。例如,您可以看一下Matlab的robustfit函数,该函数允许您为回归选择其他惩罚(也称为“权重”)函数。惩罚功能包括安德鲁斯,比方斯,柯西,公平,胡贝尔,后勤,奥尔斯,塔尔瓦尔和韦尔施。它们的相应表达也可以在网站上找到。

我希望这可以帮助您对惩罚功能有更多的了解:)

更新资料

如果您有Matlab,我建议您使用Matlab的robustdemo,它是专门为比较普通最小二乘法和鲁棒回归而构建的:

鲁棒性

该演示使您可以拖动单个点,并立即看到对普通最小二乘法和稳健回归的影响(非常适合教学!)。


3

正如另一个答案所解释的,最小化平方误差与最小化绝对误差并不相同。

选择最小化平方误差的原因是因为它可以更好地防止较大的误差。

假设您的专卖店的薪资部门无意中向10名雇员中的每位雇员支付了比要求少50 美元的款项。这是一个绝对错误$ 500这也是一个绝对错误$ 500强如果部门支付只是一个员工$ 500英镑。但是用平方误差来表示,分别是25000和250000。

使用平方误差并不总是更好。如果由于数据采集错误而使数据集具有极端异常值,则最小化平方误差将比最小化绝对误差大得多。话虽这么说,通常最好使用平方误差。


4
选择最小化平方误差的原因是因为它可以更好地防止较大的误差。-那么为什么不立方体呢?
Daniel Earwicker 2015年

@DanielEarwicker Cubed会使错误的方向减法错误。因此,它必须是绝对的立方误差,或坚持偶数幂。没有真正的“好的”理由使用平方而不是更高的幂(或者,实际上,是非多项式罚函数)。它很容易计算,易于最小化并完成工作。
Atsby

1
当然,我应该说更高的平均功率!:)
Daniel Earwicker 2015年

(目前)尚无投票,但这不是与(目前)有15票的答案(即离群值有更大影响)相同吗?是因为错了还是错过了一些关键信息而没有得到投票?还是因为它没有漂亮的图形?;-)
达伦·库克

@DarrenCook我怀疑统计数据的“现代”方法比OLS更喜欢MAD,并且建议平方误差“通常”更好地为我赢得了反对票。
Atsby

2

理论上,您可以使用任何类型的损失函数。绝对和平方损失函数恰好是最流行和最直观的损失函数。根据此维基百科条目,

一个常见的示例涉及估计“位置”。在典型的统计假设下,平均值或平均值是用于估计位置的统计量,该统计量将使平方误差损失函数下的预期损失最小化,而中位数是将绝对差损失函数下的预期损失最小化的估计量。在其他不常见的情况下,仍然会有不同的估算器是最优的。

正如Wikipedia条目中所述,损失函数的选择取决于您如何评估与目标对象之间的偏差。如果所有偏差无论其符号如何都对您同样不利,则可以使用绝对损失函数。如果偏差对您而言越差,离最佳值越远,而您又不在乎偏差是正还是负,那么平方损失函数就是您最简单的选择。但是,如果上述损失定义中的任何一个都不适合您的问题,因为例如小偏差对您而言比大偏差差,那么您可以选择其他损失函数并尝试解决最小化问题。但是,解决方案的统计属性可能难以评估。


一个小细节:“如果所有偏差对您来说都同样有害,..”:MAD函数按线性比例惩罚错误。因此,错误不是“同样严重”,而是“成比例地严重”,因为两倍的错误得到两倍的惩罚。
Jean-Paul

@让-保罗:你是对的。我是那样说的。我想说的“同样糟糕”是,MAD的斜率是恒定的,而MSE的斜率随着误差线性增长。因此,如果两个误差之间的差异是恒定的,那么无论您离最优值有多远,而对于MSE而言,情况都不一样。我希望,这使我想说的更加容易理解。
kristjan

-1

简短的答案

  1. 平均值具有比中位数更有趣的统计属性

10
如果您可以限定“更有趣的统计属性”,那就太好了。
Momo 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.