Answers:
这个问题已经很老了,但是我实际上有一个没有在这里出现的答案,并且给出了一个令人信服的理由,为什么(在一些合理的假设下)平方误差是正确的,而其他幂次是不正确的。
假设我们有一些数据并想在某种意义上,找到用于观察该数据的概率密度相对于应该最大(这被称为最大似然估计),从而找到最能预测数据的线性(或任意函数)。如果我们假设数据是由加上标准差的正态分布误差项给出的,则 这相当于 ˚F p ˚F(d )˚F ˚F σ p ˚F(d )= Ñ Π我= 1 11个
除了x ^ 2之外,没有其他理由可以尝试使范数最小化,例如,已经有整本关于分位数回归的书,或多或少地使| x |最小化。如果您正在使用中位数。这通常很难完成,并且根据错误模型,可能无法给出良好的估算器(取决于上下文中的低方差,无偏或MSE估算器低)。
至于为什么我们偏爱整数矩而不是实数矩,主要原因可能是:实数的整数幂总是生成实数,而负实数的非整数幂生成复数,因此需要使用绝对值。换句话说,尽管实值随机变量的第3矩是实数,而第3.2矩不一定是实数,因此会引起解释问题。
除此之外...
我们尝试最小化描述符中剩余的方差。为什么会有差异?阅读这个问题 ; 这还伴随着(通常是无声的)错误正态分布的假设。
扩展:
两个附加参数:
对于方差,对于不相关的样本,我们有一个很好的“定律”,即方差之和等于和之和。如果我们假设误差与情况不相关,则最小化平方余数将直接使解释的方差最大化,这可能不是很好,但仍然很受欢迎。
如果我们假设误差的正态性,则最小二乘误差估计器是最大似然估计器。
在普通最小二乘法中,对(A'A)^(-1)x = A'b的解最小化了平方误差损失,并且是最大似然解。
因此,主要是因为在这种历史性案例中数学很容易。
但是通常人们会最小化许多不同的损失函数,例如指数函数,逻辑函数,柯西函数,拉普拉斯函数,huber等等。这些更奇特的损失函数通常需要大量的计算资源,并且(通常)没有封闭形式的解决方案,因此他们现在才开始变得越来越流行。
我的理解是,因为我们正在尝试最大程度地减少错误,所以我们需要找到一种不会使自己陷入错误负差之和等于错误正差之和的情况的方法找到了一个很好的选择。我们通过对误差差之和求平方来实现,这意味着误差的正负差都变为正()。如果我们将提升为除正整数以外的任何幂,我们将不会解决此问题,因为错误不会具有相同的符号,或者如果我们将其提升为非整数的幂,我们将输入复数的领域。x