最大似然法与最小二乘法


42

最大似然估计(MLE)与最小二乘估计(LSE)之间的主要区别是什么?

为什么不能在线性回归中使用MLE来预测值,反之亦然?y

对此主题的任何帮助将不胜感激。


8
如果愿意,可以在线性回归中使用MLE。如果误差分布是非正态的,而您的目标是获得“最可能的”估算值,而不是使平方和最小的估算值,则这甚至可以说得通。
理查德·哈迪

16
在正常误差假设下(通常在线性回归中假设),MLE和LSE相同!
TrynnaDoStat 2015年

1
在我们的站点上搜索Gauss-Markov定理
ub

感谢所有的答复。现在这很有意义。在网上搜索此主题时,我遇到了这篇文章。也许这也帮助:radfordneal.wordpress.com/2008/08/09/...
埃夫罗斯

Answers:


19

我想提供一个简单的答案。

最大似然估计(MLE)与最小二乘估计(LSE)之间的主要区别是什么?

正如@TrynnaDoStat所评论的那样,在这种情况下,最小化平方误差等同于最大化可能性。如Wikipedia中所述,

在线性模型中,如果误差属于正态分布,则最小二乘估计也是最大似然估计。

在您的情况下,它们可以被视为相同,

让我详细介绍一下。由于我们知道响应变量() 具有正态误差分布模型, 因此似然函数为 显然,最大化L等同于最小化 这是最小二乘法。y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

在此处输入图片说明
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

为什么不能在线性回归中使用MLE来预测值,反之亦然? y

如上所述,我们实际上(更确切地说是等价地)使用MLE来预测值。如果响应变量具有任意分布而不是正态分布,例如伯努利分布或指数族中的任何一个,我们使用链接函数(根据响应分布)将线性预测变量映射到响应变量分布,则似然函数变为转换后所有结果(概率在0到1之间)的乘积。我们可以将线性回归中的链接函数视为恒等函数(因为响应已经是概率)。y


3
您可能需要更清楚地定义“这种情况”,因为一般而言,最大似然和最小二乘并不相同。
马修·冈恩

2
@MatthewGunn是的,我使用“等于”而不是“相同”。
勒纳·张

如果您能为我们提供一个示例,其中线性模型遵循非正态误差分布,以及在这种情况下如何使用MLE估计最佳系数,那将很好。如果不可能的话,至少您可以为我们指出一个正确的来源,这可以使用Poisson回归之类的线性模型来证明这一点
VM_AI

12

ML是较高的一组估计量,包括最小绝对偏差( -Norm)和最小二乘( -Norm)。在ML的掩盖下,估计量具有广泛的共同属性,例如(严重)不存在的断点。实际上,只要您知道自己在做什么,就可以使用ML方法来优化包括OLS在内的许多功能。L1L2

L2范数追溯到CF高斯和大约200年的历史,而现代ML方法可以追溯到(恕我直言)胡贝尔1964年许多科学家用来 -Norms和他们的方程。该理论已广为人知,并且有许多已发表的论文可以看作是有用的扩展,例如:L2

  • 数据监听
  • 随机参数
  • 约束薄弱

专业应用程序不仅适合数据,还检查:

  • 如果参数有效
  • 如果您的数据集有异常值
  • 可以容忍的异常值,因为它不会削弱性能
  • 应该删除哪种度量,因为它不会影响自由度

也有大量针对假设的专门统计检验。这并非适用于所有ML估计量,或者至少应提供证明。

另一个亵渎点是 -Norm非常易于实现,可以扩展到贝叶斯正则化或诸如Levenberg-Marquard之类的其他算法。L2

不要忘记:性能。并非像Gauss-Markov这样的最小二乘情况都产生对称正定正态方程。因此,我为每个 -Norm 使用单独的库。对于这种特定情况,可以执行特殊的优化。Xβ=L+r(XTX)1L2

随时询问详细信息。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.