最小二乘时偏向自然数


14

为什么我们寻求最小化x^2而不是最小化|x|^1.95|x|^2.05。是否有理由为什么数字应该恰好为2,或者仅仅是一个具有简化数学优势的约定?

Answers:


5

这个问题已经很老了,但是我实际上有一个没有在这里出现的答案,并且给出了一个令人信服的理由,为什么(在一些合理的假设下)平方误差是正确的,而其他幂次是不正确的。

假设我们有一些数据并想在某种意义上,找到用于观察该数据的概率密度相对于应该最大(这被称为最大似然估计),从而找到最能预测数据的线性(或任意函数)。如果我们假设数据是由加上标准差的正态分布误差项给出的,则 这相当于 ˚F p ˚Fd ˚F ˚F σ p ˚Fd = Ñ Π= 1 1D=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)ffσ1个

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
因此,通过最小化(即平方误差项之和来实现最大化。n i = 1y i - f x i2pf(D)i=1n(yif(xi))2

这似乎是循环的,为什么要假设一个正态分布的误差项?

@Joe不一定总是这样,但是如果您对错误项的唯一了解是它的平均值为0且期望绝对值是有限的,那么这就是最大熵假设,因此它可以代表任何未知数您实际拥有的错误功能。如果您有关于误差分布的其他信息,那么我想您可以使用它并找到更准确的最大似然估计器。

“如果您对误差项唯一了解的是它的均值为0和有限的预期绝对值,那么这就是最大熵假设”-我所看到的每个最大熵分布的推导都会得出拉普拉斯分布为(已知)有限期望绝对值的最大分布,而高斯分布是(已知)有限期望平方的绝对值的最大分布,例如stats.stackexchange.com/questions/82410/…您是否引用了不同意?

你知道,我不知道。我认为你是对的。(尽管由于某些原因我不知道如何编辑我的评论)

14

除了x ^ 2之外,没有其他理由可以尝试使范数最小化,例如,已经有整本关于分位数回归的书,或多或少地使| x |最小化。如果您正在使用中位数。这通常很难完成,并且根据错误模型,可能无法给出良好的估算器(取决于上下文中的低方差,无偏或MSE估算器低)。

至于为什么我们偏爱整数矩而不是实数矩,主要原因可能是:实数的整数幂总是生成实数,而负实数的非整数幂生成复数,因此需要使用绝对值。换句话说,尽管实值随机变量的第3矩是实数,而第3.2矩不一定是实数,因此会引起解释问题。

除此之外...

  1. 随机变量整数矩的解析表达式通常比实值矩容易找到,无论是通过生成函数还是其他方法。因此,将它们最小化的方法更容易编写。
  2. 使用整数矩会导致表达式比实值矩更易于处理。
  3. 我无法想到一个令人信服的理由,例如(例如)X的绝对值的1.95矩比(例如)X的第二矩可提供更好的拟合特性,尽管这可能使研究有趣
  4. 特定于L2范数(或平方误差),可以通过点积来编写它,从而可以大大提高计算速度。它也是Hilbert空间的唯一Lp空间,这是一个不错的功能。

8

我们尝试最小化描述符中剩余的方差。为什么会有差异?阅读这个问题 ; 这还伴随着(通常是无声的)错误正态分布的假设。

扩展:
两个附加参数:

  1. 对于方差,对于不相关的样本,我们有一个很好的“定律”,即方差之和等于和之和。如果我们假设误差与情况不相关,则最小化平方余数将直接使解释的方差最大化,这可能不是很好,但仍然很受欢迎。

  2. 如果我们假设误差的正态性,则最小二乘误差估计器是最大似然估计器。


1
另一个线程中的答案并没有真正解释为什么2是比非常接近2却不是自然数的其他值更好的值。
基督教徒

我认为是的。我仍然会尝试扩大答案。

因此,如果错误不是正态分布的,而是根据另一个Lévy稳定分布,则使用不同于2的指数可能会有所回报。
Raskolnikov

请记住,对于已知方差,正态分布是最“谨慎”的(因为在具有固定方差的所有密度中,正态分布具有最大的熵)。数据最多可以说。或者换一种说法,对于“大”数据集相同的方差,“你”有“试” 令人难以置信的很难找到一个分配是从一个正常的不同。
概率

8

在普通最小二乘法中,对(A'A)^(-1)x = A'b的解最小化了平方误差损失,并且是最大似然解。

因此,主要是因为在这种历史性案例中数学很容易。

但是通常人们会最小化许多不同的损失函数,例如指数函数,逻辑函数,柯西函数,拉普拉斯函数,huber等等。这些更奇特的损失函数通常需要大量的计算资源,并且(通常)没有封闭形式的解决方案,因此他们现在才开始变得越来越流行。


1
+1介绍损失的概念。(但是,“指数”等不是分布,不是损失函数吗?)历史上线性损失是1750年正式开发的第一种方法,并且有一种简单的几何解决方案可供使用。我相信拉普拉斯(Laplace)在1809年的出版物中建立了这种关系和双指数分布之间的关系(为此,MLE将使绝对误差最小化,而不是平方误差最小化)。因此,平方损失不能通过具有MLE且在数学上容易实现的标准来唯一区分。
ub

它们既是分布又是在不同上下文中的损失函数。

我在上一个答复中按Enter的速度太快-指数损失与增长密切相关(请参见Friedman Hastie和Tibshirani的统计增长观点),其中损失是损失而不是分布,逻辑回归响应于对数损失,拉普拉斯是分布,但对应于绝对值损失-因此,在很大程度上,我非常草率,感谢您指出。但是,尽管L1损失具有几何解决方案,但它不是解析的封闭形式,因此我很难称其为简单的解决方案。

1

我的理解是,因为我们正在尝试最大程度地减少错误,所以我们需要找到一种不会使自己陷入错误负差之和等于错误正差之和的情况的方法找到了一个很好的选择。我们通过对误差差之和求平方来实现,这意味着误差的正负差都变为正()。如果我们将提升为除正整数以外的任何幂,我们将不会解决此问题,因为错误不会具有相同的符号,或者如果我们将其提升为非整数的幂,我们将输入复数的领域。x1×1=1x

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.