7
为什么要优化最大对数概率而不是概率
在大多数机器学习任务中,您可以制定应最大化的概率,我们实际上将优化对数概率而不是某些参数的概率。例如,在最大似然训练中,通常是对数似然。使用某些渐变方法进行此操作时,涉及一个因素:数p θppp日志plogp\log pθθ\theta ∂日志p∂θ= 1p·&∂&p∂θ∂logp∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot \frac{\partial p}{\partial \theta} 有关示例,请参见此处或此处。 当然,优化是等效的,但梯度会有所不同,因此任何基于梯度的方法的行为都会有所不同(尤其是随机梯度方法)。是否有理由证明梯度比梯度更好?p日志plogp\log pppp