最大似然估计(MLE)与最小二乘估计(LSE)之间的主要区别是什么?
为什么不能在线性回归中使用MLE来预测值,反之亦然?
对此主题的任何帮助将不胜感激。
最大似然估计(MLE)与最小二乘估计(LSE)之间的主要区别是什么?
为什么不能在线性回归中使用MLE来预测值,反之亦然?
对此主题的任何帮助将不胜感激。
Answers:
我想提供一个简单的答案。
最大似然估计(MLE)与最小二乘估计(LSE)之间的主要区别是什么?
正如@TrynnaDoStat所评论的那样,在这种情况下,最小化平方误差等同于最大化可能性。如Wikipedia中所述,
在线性模型中,如果误差属于正态分布,则最小二乘估计也是最大似然估计。
在您的情况下,它们可以被视为相同,
让我详细介绍一下。由于我们知道响应变量()
具有正态误差分布模型,
因此似然函数为
显然,最大化L等同于最小化
这是最小二乘法。
为什么不能在线性回归中使用MLE来预测值,反之亦然?
如上所述,我们实际上(更确切地说是等价地)使用MLE来预测值。如果响应变量具有任意分布而不是正态分布,例如伯努利分布或指数族中的任何一个,我们使用链接函数(根据响应分布)将线性预测变量映射到响应变量分布,则似然函数变为转换后所有结果(概率在0到1之间)的乘积。我们可以将线性回归中的链接函数视为恒等函数(因为响应已经是概率)。
ML是较高的一组估计量,包括最小绝对偏差( -Norm)和最小二乘( -Norm)。在ML的掩盖下,估计量具有广泛的共同属性,例如(严重)不存在的断点。实际上,只要您知道自己在做什么,就可以使用ML方法来优化包括OLS在内的许多功能。
范数追溯到CF高斯和大约200年的历史,而现代ML方法可以追溯到(恕我直言)胡贝尔1964年许多科学家用来 -Norms和他们的方程。该理论已广为人知,并且有许多已发表的论文可以看作是有用的扩展,例如:
专业应用程序不仅适合数据,还检查:
也有大量针对假设的专门统计检验。这并非适用于所有ML估计量,或者至少应提供证明。
另一个亵渎点是 -Norm非常易于实现,可以扩展到贝叶斯正则化或诸如Levenberg-Marquard之类的其他算法。
不要忘记:性能。并非像Gauss-Markov这样的最小二乘情况都产生对称正定正态方程。因此,我为每个 -Norm 使用单独的库。对于这种特定情况,可以执行特殊的优化。
随时询问详细信息。