内核化SVM是否有可能实现Gradient Descent(如果有的话,人们为什么要使用二次编程)?
人们在处理带内核的SVM时为什么使用二次编程技术(例如SMO)?梯度下降有什么问题?不能与内核一起使用还是速度太慢(为什么?)。 这里有一些上下文:为了更好地理解SVM,我使用了Gradient Descent通过以下成本函数来训练线性SVM分类器: Ĵ(w,b )= C∑我= 1米中号一个X ( 0 ,1 - ÿ(我)(wŤ⋅ X(我)+ b ))+1个2wŤ⋅ w ^J(w,b)=C∑i=1mmax(0,1−y(i)(wt⋅x(i)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} 我正在使用以下符号: ww\mathbf{w}是模型的特征权重,是其偏差参数。bbb X(我)x(i)\mathbf{x}^{(i)}是第训练实例的特征向量。一世日ithi^\text{th} ÿ(我)y(i)y^{(i)}是实例的目标类(-1或1)。一世日ithi^\text{th} 米mm是训练实例的数量。 CCC是正则化超参数。 我从该方程式导出了一个(子)梯度向量(关于和),而Gradient Descent效果很好。ww\mathbf{w}bbb 现在,我想解决非线性问题。我可以在成本函数中用替换所有点积,其中是内核函数(例如高斯RBF,),然后使用演算来导出(子)梯度向量并继续进行Gradescent Descent?üŤ⋅ vüŤ⋅v\mathbf{u}^t \cdot …