3
坐标与梯度下降
我想知道Coordinate Descent和Gradient Descent这两种算法的不同用例是什么。 我知道坐标下降存在函数不平滑的问题,但是它已用于诸如SVM和LASSO的流行算法中。 但是我认为梯度下降法得到了更广泛的应用,尤其是随着人工神经网络的兴起以及许多其他机器学习任务的出现。 我的问题是:哪种类型的问题适合一种而不是另一种,在这方面,什么使SVM和LASSO的坐标下降适合,而对ANN的梯度下降适合? 选择优化算法时,应该如何在两者之间进行选择?