如果问题是凸的或拟凸的,则将有一个全局最小值。
关于在构建神经网络期间凸出的“构建基块”(计算机科学版)
我认为其中有几个可以提及:
max(0,x)-凸且递增
log-sum-exp-每个参数凸和递增
y = Ax是仿射的,因此在(A)中是凸的,可能增加或减少。y = Ax是仿射的,因此在(x)中是凸的,可能增加或减少。
不幸的是,它在(A,x)中不是凸的,因为它看起来像是不确定的二次形式。
常用数学离散卷积(用“通常”表示,用重复信号定义)Y = h * X看起来它是h或变量X的仿射函数。因此它是变量h或变量X的凸函数。关于两个变量-我不这么认为,因为当h和X为标量时,卷积将减少为不确定的二次形式。
max(f,g)-如果f和g是凸的,则max(f,g)也是凸的。
如果将一个函数替换为另一个函数并创建合成,则对于y = h(g(x),q(x))仍在凸空间中,但是h应该是凸的,并且每个参数都应增加(不减少)。 ...
为什么神经网络不是凸的:
我认为卷积Y = h * X不一定是h的增加。因此,如果您不对内核使用任何额外的假设,那么在应用卷积后,您将立即退出凸优化。因此,构图并非一帆风顺。
如果如上所述考虑耦合参数,则卷积和矩阵乘法也不是凸的。因此,矩阵乘法确实存在一个问题:它是参数(A,x)中的非凸运算
y = Ax在(A,x)中可以是拟凸的,但还应考虑其他假设。
如果您不同意或有其他考虑,请告诉我。这个问题对我来说也很有趣。
ps max-pooling-通过选择max进行下采样看起来像是对具有仿射预组合(拉动需要的块)的elementwise max操作进行了一些修改,并且对我来说看起来是凸的。
关于其他问题
不,逻辑回归不是凸凹的,而是对数凹的。这意味着在应用对数后,您将在解释变量中具有凹函数。因此,这里的最大对数似然技巧很棒。
如果不是只有一个全局最小值。关于局部最小值之间的关系无话可说。或者至少您不能使用凸优化及其扩展,因为这方面的数学深深地基于全局低估器。
也许您对此感到困惑。因为创建此类架构的人实际上只是做“某事”,而他们却收到“某事”。不幸的是,因为我们没有完美的机制来解决非凸优化问题(通常)。
但是神经网络旁边还有其他更简单的东西-无法像非线性最小二乘法一样解决-https://youtu.be/l1X4tOoIHYo ? t = 2992(EE263,L8,50:10)