Questions tagged «convex»


6
对于凸问题,随机梯度下降(SGD)中的梯度是否始终指向全局极值?
给定凸成本函数,使用SGD进行优化,我们将在优化过程中的某个点处具有一个梯度(矢量)。 我的问题是,给定凸面上的点,梯度是否仅指向函数增加/减少最快的方向,或者梯度始终指向成本函数的最优/极端? 前者是本地概念,后者是全球概念。 SGD最终可以收敛到成本函数的极值。我想知道给定凸面上任意点的渐变方向与指向全局极值的方向之间的差异。 梯度的方向应该是函数在该点上最快增减的方向,对吗?

1
为什么神经网络的成本函数是非凸的?
这里有一个类似的线程(神经网络的成本函数是非凸的?),但我无法理解那里答案的要点,我再次询问的原因希望这可以澄清一些问题: 如果我使用差额成本函数平方和,那么我最终将优化形式的某物,其中是训练期间的实际标签值相位,是预测标签值。由于它具有正方形形式,因此应该是凸成本函数。那么,什么会使它在NN中不凸?Σñ我= 1(y一世- ÿ一世^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2ÿyyy^y^\hat{y}


3
PCA优化是否凸出?
主成分分析(PCA)的目标函数是使L2范数中的重构误差最小化(请参阅此处的 2.12节。另一种观点试图使投影的方差最大化。我们在此处也有一篇很不错的文章:PCA的目标函数是什么?)。 我的问题是PCA优化凸出吗?(我在这里找到了一些讨论,但希望有人可以在这里提供有关CV的很好的证明)。

4
如何将迭代加权最小二乘(IRLS)方法应用于LASSO模型?
我已经使用IRLS算法对逻辑回归进行了编程。我想对LASSO进行处罚,以便自动选择正确的功能。在每次迭代中,解决了以下问题: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} 令为非负实数。我没有按照《The Elements of》中的建议对拦截进行处罚。统计学习。同为零的系数。否则,我从右边减去一个术语:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} 但是,我不确定IRLS算法的修改。这是正确的方法吗? 编辑:尽管我对此并不自信,但这是我最终想出的解决方案之一。有趣的是,此解决方案与我现在对LASSO的了解相对应。实际上,每次迭代有两个步骤,而不仅仅是一个步骤: 第一步与之前相同:我们对该算法进行迭代(就像上面梯度的公式中),λ=0λ=0\lambda=0 第二步是新步骤:我们对第一步获得的向量每个分量(分量,它对应于截距)应用一个软阈值。这称为迭代软阈值算法。 ββ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.