使用SVM时,我们需要选择一个内核。
我不知道如何选择内核。关于内核选择的任何标准?
使用SVM时,我们需要选择一个内核。
我不知道如何选择内核。关于内核选择的任何标准?
Answers:
内核实际上是一种相似性度量,因此根据Robin(+1)提出的不变性的先验知识选择内核是一个好主意。
在缺乏专业知识的情况下,“径向基函数”内核会成为一个很好的默认内核(一旦您确定这是一个需要非线性模型的问题)。
内核和内核/正则化参数的选择可以通过优化基于交叉验证的模型选择(或使用半径范围或跨度边界)来自动进行。最简单的方法是使用Nelder-Mead单纯形法来最小化连续模型选择标准,该方法不需要进行梯度计算,并且对于合理数量的超参数都适用。如果要调整的超参数超过几个,由于模型选择标准的差异,自动模型选择可能会导致严重的过度拟合。可以使用基于梯度的优化,但是通常不值得为提高性能而付出努力。
内核和内核/正则化参数的自动选择是一个棘手的问题,因为很容易过度拟合模型选择标准(通常基于交叉验证),并且最终可能会得到比开始时更糟糕的模型。自动化的模型选择也可能会影响绩效评估,因此请确保绩效评估会评估拟合模型的整个过程(培训和模型选择),有关详细信息,请参阅
GC Cawley和NLC Talbot,通过超参数的贝叶斯正则化防止模型选择过拟合,《机器学习研究杂志》,第8卷,第841-861页,2007年4月。(pdf)
和
GC Cawley和NLC Talbot,模型选择中的过拟合和性能评估中的后续选择偏差,《机器学习研究杂志》,第1卷。2010年7月,第11页,第2079-2107页。(pdf)
如果您不确定哪种方法最好,则可以使用自动选择技术(例如,交叉验证等)。在这种情况下,您甚至可以使用从不同内核获得的分类器组合(如果您的问题是分类)。
但是,使用内核的“优势”是您可以更改常规的“欧几里得”几何形状,以使其适合您自己的问题。另外,您应该真正尝试理解内核对您的问题的兴趣,以及对您的问题的几何形状特别感兴趣的内容。这可以包括:
我总是有一种感觉,对于SVM的任何超级参数选择都是通过交叉验证结合网格搜索来完成的。