为什么在拟合模型时通常选择最小化平方误差之和(SSE)?


23

问题很简单:为什么当我们尝试将模型拟合到线性或非线性数据时,我们通常会尝试最小化误差平方和以获得模型参数的估计量吗?为什么不选择其他一些目标函数来最小化?我了解,由于技术原因,二次函数比其他函数(例如,绝对偏差之和)更好。但这仍然不是一个很令人信服的答案。除了这个技术原因之外,为什么人们特别赞成这种“欧几里得类型”的距离函数?是否有特定的含义或解释?

我的想法背后的逻辑如下:

当有了数据集时,首先要通过建立一组功能或分布假设(例如,某个时刻条件,而不是整个分布)来建立模型。在您的模型中,有一些参数(假设它是一个参数模型),那么您需要找到一种方法来一致地估计这些参数,并且希望您的估计器具有低方差和一些其他好的属性。无论您最小化SSE或LAD还是其他一些目标函数,我都认为它们只是获得一致估计量的不同方法。按照这种逻辑,我认为人们使用的最小二乘必须为1)它会产生模型的一致估计量2)其他我不知道的东西。

在计量经济学中,我们知道在线性回归模型中,如果您假设误差项对预测变量的均值条件为0,并且均方差和误差互不相关,那么最小化平方误差之和将为您提供模型的一致估计参数和高斯-马尔可夫定理,这个估计是蓝色。因此,这表明如果选择最小化不是SSE的某些其他目标函数,则无法保证将获得模型参数的一致估计量。我的理解正确吗?如果正确,那么可以通过一致性来证明最小化SSE而不是其他一些目标函数,这是可以接受的,实际上,这比说二次函数更好是可以接受的。

在实践中,我实际上看到许多情况,人们直接最小化平方误差之和,而没有先明确指定完整模型,例如误差项的分布假设(矩假设)。然后在我看来,该方法的用户只是想看看数据在平方距离函数方面与“模型”的拟合程度如何(我使用引号,因为模型假设可能不完整)。

一个相关的问题(也与该网站有关)是:为什么当我们尝试使用交叉验证比较不同的模型时,我们是否再次使用SSE作为判断标准?即,选择具有最小SSE的模型?为什么没有其他标准?


Answers:


14

尽管您的问题与网站上的其他许多问题相似,但该问题的各个方面(例如您对一致性的强调)使我认为它们离成为重复项还不够近。

为什么不选择其他一些目标函数来最小化?

的确为什么不呢?如果您的目标不同于最小二乘,则应该解决您的目标!

尽管如此,最小二乘具有许多不错的属性(最重要的,它是许多人想要的与估计均值的紧密联系,并且简单易用,使其成为教导或尝试实现新思想时的明显首选)。

此外,在很多情况下,人们没有明确的目标功能,因此选择易于使用和广泛理解的内容具有优势。

就是说,最小二乘也具有一些较小的特性(例如,对异常值的敏感度)-因此,有时人们喜欢更鲁棒的标准。

最小化平方误差之和将为您提供模型参数的一致估计

最小二乘不是一致性要求。一致性不是一个很高的障碍-许多估计将是一致的。人们在实践中使用的几乎所有估计量都是一致的。

根据高斯-马尔可夫定理,这个估计是蓝色。

但是,在所有线性估计量都不好的情况下(例如,在极端的重尾情况下就是这种情况),最好的估计量没有太多优势。

如果您选择最小化不是SSE的其他目标函数,则不能保证您将获得模型参数的一致估计量。我的理解正确吗?

找到一致的估计量并不难,所以这不是最小二乘的特别合理的证明

为什么当我们尝试使用交叉验证比较不同的模型时,又使用SSE作为判断标准?[...]为什么没有其他标准?

如果您的目标可以通过其他方式更好地反映出来,为什么不呢?

除了最小二乘法外,没有其他人使用其他目标函数。它出现在M估计,最少修剪的估计器,分位数回归中,以及当人们使用LINEX损失函数时,仅举几例。

当时以为拥有数据集时,您首先要建立模型,即进行一组功能或分布假设。在您的模型中,有一些参数(假设它是一个参数模型),

假设功能假设的参数就是您要估算的参数-在这种情况下,功能假设是您对周围的最小平方(或其他最小平方)进行计算的值;他们没有确定标准,而是标准所估计的。

另一方面,如果您有分布假设,那么您将获得许多有关更合适的目标函数的信息-例如,大概,您将需要对参数进行有效的估计-在大样本中,趋向于引导您迈向MLE(尽管在某些情况下可能嵌入了经过增强的框架)。

那么您需要找到一种方法来一致地估计这些参数。无论您最小化SSE或LAD还是其他一些目标函数,

LAD是分位数估计量。它是参数的一致估计量,应该在应期望的条件下估计该参数,与最小二乘法相同。(如果查看最小二乘方显示的一致性,则其他许多常见估计量也会有相应的结果。人们很少使用不一致的估计量,因此,如果您看到了一个被广泛讨论的估计量,除非他们在谈论其不一致之处,否则几乎肯定是一致的。*)

*也就是说,一致性不一定是必不可少的属性。毕竟,对于我的样本,我有一些特定的样本大小,而不是趋于无穷大的一系列样本大小。重要的是我拥有的的属性,而不是我没有且永远不会看到的无限大的n。但是,当我们有不一致的地方时,需要多加注意-我们可能在n = 20时有一个好的估计量,但在n = 2000 时可能会很糟糕;从某种意义上说,如果我们想使用一致的估计量,则需要付出更多的努力。nnnn

如果您使用LAD估计指数均值,那么它就不会保持一致(尽管对其估计值进行微不足道的缩放)-但是,如果您使用最小二乘方来估计指数中位数,则使用同一个标记,那么这将是不一致的(再一次,小规模的缩放可以解决该问题)。


我想我没有清楚表达我的关注。我当时在想,当您拥有数据集时,首先要建立模型,即进行一组功能或分布假设。在您的模型中,有一些参数(假设它是一个参数模型),那么您需要找到一种方法来一致地估计这些参数。无论您最小化SSE或LAD还是其他一些目标函数,我都认为它们只是获得估算器的不同方法。按照这种逻辑,我认为人们使用的最小二乘必须是1)它产生模型的一致估计2)其他
KevinKim 2015年

假设功能假设的参数就是您要估算的参数-在这种情况下,功能假设是您对周围最小的平方(或其他最小平方)进行计算;他们没有确定标准。另一方面,如果您有分布假设,那么您将获得许多有关更合适的目标函数的信息-例如,大概,您将需要对参数进行有效的估计-在大样本中,往往会引导您迈向MLE(尽管在某些情况下可能嵌入到经过增强的框架中)。
Glen_b-恢复莫妮卡2015年

这个答案适合我的心态。但是我还有一个问题,“他们不确定标准”是什么意思?这是否意味着,例如,在线性回归的计量经济学101中,在功能(无分布)假设下,为了获得一致的估计量,您必须使用ols,而不能使用一些任意目标函数来最小化,因为保证从那里得到一致的估计量?
KevinKim 2015年

关于“不确定”-让我扩大答案。关于一致性:我在回答中说相反的话。我再说一遍:最小二乘不是一致性的必要条件。这包括您刚才提到的情况;有无数的估计量是一致的。人们在实践中使用的几乎所有估计量都是一致的。我将对答案进行更明确的编辑。
Glen_b-恢复莫妮卡2015年

对于更新后的答案,最后一段,因此对于某些模型,尽管您仍然可以应用这些方法,并且compter会为您提供一些数字,但是有些方法不会为模型参数生成一致的参数。因此,我可以说,对于人们构建的模型,为了推导模型中参数的估计量,人们不能基于其技术特性来任意选择目标函数来优化JUST吗?
KevinKim 2015年

5

您问了一个统计问题,我希望我的控制系统工程师的回答是对我们的启发,从一个不同的方向开始。

这是控制系统工程的“规范”信息流形式: 在此处输入图片说明

“ r”是参考值。它与输出“ y”的“ F”变换相加,以产生误差“ e”。该错误是控制器的输入,通过控制传递函数“ C”将其转换为工厂“ P”的控制输入。它应具有足够的通用性以适用于任意植物。“工厂”可以是用于巡航控制的汽车发动机,或者是倒立摆的输入角度。

假设您拥有一种植物,该植物具有适合以下讨论的现象学,已知状态的传递函数和当前状态以及所需的最终状态。(表2.1第pp68页)拥有不同输入的系统可以遍历从初始状态到最终状态的无数唯一路径。教科书控制工程师的“最佳方法”包括时间最佳(最短时间/爆炸),距离最佳(最短路径),力最佳(最小最大输入量)和能量最佳(最小总能量输入)。

就像有无数的路径一样,也有无数的“最优值”-每个都选择这些路径之一。如果您选择一条道路并说最好,那么您隐含地在选择“善良的度量”或“最优的度量”。

以我个人的观点,我认为人们喜欢L-2范式(又称能量最优,又称最小平方误差),因为它简单,易于解释,易于执行,并且具有针对较小错误进行更多工作的特性,并以零偏差离开。考虑方差最小且偏差受约束但不为零的h-无穷范数。它们可能非常有用,但是描述起来更加复杂,代码也更加复杂。

我认为L2范数,也就是能量最小的最佳路径,也就是最小平方误差拟合,很容易,并且在懒惰的意义上,符合启发式的观点,即“较大的误差更严重,较小的误差较不严重”。实际上有无数种算法可以表述这一点,但是平方误差是最方便的一种。它只需要代数,因此更多的人可以理解它。它在(流行的)多项式空间中工作。最佳能量与构成我们感知世界的许多物理学一致,因此它“感到熟悉”。它的计算速度相当快,而且在内存方面也不太可怕。

如果我有更多时间,我想输入图片,代码或书目参考。


1

小号小号Ë小号小号Ë[R2小号小号Ť

R2=1SSESST

R2R2RMSE

R2R2SSESSEPRESS,这与帖子末尾的问题有关。

SSE


2
R2R2

R2R2

R2

R2

0

您可能还会考虑最小化最大误差,而不是最小二乘拟合。关于这一主题有足够的文献。对于搜索词,请尝试也拼写为“ Chebyshev”多项式的“ Tchebechev”。


1
最大值是L-无穷大范数。如果您看一下Nutonian / Formulize / Eureqa,它们有一个很好的成本函数动物园(错误形式),包括四分位绝对误差,铰链损耗误差,ROC-AUC和有符号差。 formulize.nutonian.com/documentation/eureqa/general-reference/...
EngrStudent -恢复莫妮卡

0

看起来人们使用平方,是因为它允许进入线性代数领域,并且不涉及其他更复杂的事物,例如更强大的凸优化,但是它导致没有很好的封闭形式解的求解器。

来自这个具有凸优化的数学领域的想法也没有广泛传播。

“ ...为什么我们关心物品的平方。说实话,因为我们可以对其进行分析...如果您说它对应于Energy并且他们购买了它,那么它会继续前进。...”- https:/ /youtu.be/l1X4tOoIHYo?t=1416,EE263,L8,23:36

同样在这里斯蒂芬·博伊德(Stephen P.Boyd)在2008年描述了人们使用锤子和即席演奏:L20,01:05:15- https ://youtu.be/qoCa7kMLXNg ? t = 3916


0

附带说明:

pŤ|Xwβ=ñŤ|ÿXwβ-1个
{XŤ}w
pŤ|Xwβ=ñ=1个ññŤñ|ÿXñwβ-1个
-β2ñ=1个ñ{ÿXñw-Ťñ}2+ñ2ñβ-ñ2ñ2π
与最小化负对数可能性相同。我们不考虑第二和第三项,因为它们在w。还有比例因子β 可以删除第一项中的值,因为恒定因子不会更改最大值/最小值的位置,因此我们可以
-1个2ñ=1个ñ{ÿXñw-Ťñ}2
因此,由于在高斯噪声分布​​的假设下使似然性最大化,所以出现了SSE。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.