2
小批量梯度下降如何批量更新每个示例的权重?
如果我们批量处理10个示例,我理解我们可以将每个示例的损失相加,但是反向传播在更新每个示例的权重方面如何工作? 例如: 示例1->损失= 2 示例2->损失= -2 这导致平均损失为0(E = 0),那么这将如何更新每个权重并收敛呢?仅仅是通过批次的随机化,我们“希望”早晚收敛?难道这还不是只为最后处理的示例计算第一组权重的梯度吗?
梯度下降是一阶迭代优化算法。要使用梯度下降来找到函数的局部最小值,需要采取与该函数在当前点的梯度(或近似梯度)的负值成比例的步骤。对于随机梯度下降,也有[sgd]标签。