Answers:
最大似然估计是通过最大化定义为的似然函数来估计统计模型中参数的通用方法
也就是说,在给定参数θ的某个值的情况下获得数据的概率。知道了给定问题的似然函数后,您可以寻找可以最大程度地获得数据的θ。有时我们知道估算器,例如,算术平均值是用于正态分布的μ参数的MLE估算器,但是在其他情况下,您可以使用不同的方法,包括使用优化算法。ML方法不告诉你如何找到最优值θ -你可以简单地猜测和使用的可能性比较哪个猜测是更好-它只是告诉你,你怎么能比较的,如果一个值比另一个更“可能”。
梯度下降是一种优化算法。您可以使用此算法查找许多不同函数的最小值(或最大值,然后称为“梯度上升”)。该算法并不真正在乎它最小化的功能是什么,它只是按照要求进行操作。因此,使用优化算法时,您必须知道如何知道目标参数的一个值是否比另一个参数“更好”。您必须为算法提供一些函数以使其最小化,并且该算法将处理找到其最小值的问题。
您可以使用不同的方法获得最大似然估计,并且使用优化算法就是其中之一。另一方面,梯度下降也可用于最大化似然函数以外的函数。
通常,当我们得到似然函数,我们求解方程 d f
我们可以得到的值,可以给出的最大值或最小值!
f
但是通过这种方式,逻辑回归的似然函数没有封闭形式的解决方案。因此,我们必须使用其他方法,例如gradient descent
。
likelihood function
+ gradient descent
(获得似然函数的解)仍然是进行MLE的一种方法。
Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
从《机器学习:概率论》(Kevin Murphy)中看到这句话。