2
在梯度下降中使用固定步长时,为什么步长会变小?
假设我们正在做一个关于梯度合适的玩具示例,使用固定步长最小化二次函数。()α = 0.03 甲= [ 10 ,2 ; 2 ,3 ]XŤ一个XxTAxx^TAxα = 0.03α=0.03\alpha=0.03甲= [ 10 ,2 ; 2 ,3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 如果在每次迭代中绘制的轨迹,我们将得到下图。当我们使用固定步长时,为什么点变得“非常密集” ?直观地,它看起来不像固定步长,而是递减的步长。Xxx PS:R代码包括情节。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, …