确定SVM最佳C和伽玛参数的搜索范围是什么?


32

我正在使用SVM进行分类,并且正在尝试确定线性和RBF内核的最佳参数。对于线性内核,我使用交叉验证的参数选择来确定C,对于RBF内核,我使用网格搜索来确定C和伽马。

我有20个(数字)功能和70个训练示例,应该将其分为7类。

我应该使用哪个搜索范围来确定C和gamma参数的最佳值?

Answers:


31

查阅有关SVM分类的实用指南以获取一些指针,尤其是第5页。

我们建议使用交叉验证对和进行“网格搜索” 。尝试各种值对,并选择交叉验证精度最高的值。我们发现尝试对和指数增长的序列是一种识别良好参数的实用方法(例如)。Cγ(C,γ)CγC=25,23,,215;γ=215,213,,23

请记住先对数据进行规范化,如果可以的话,请收集更多数据,因为从数据的外观看,您的问题可能很不确定。


是否应该手动进行同伴测试?没有图书馆可以实现吗?
x-rw

11

请参阅Chapelle和Zien撰写的本文第2.3.2节。他们具有很好的启发性,可以为RBF内核的和SVM的合适的搜索范围。我引用σC

为了确定剩余自由参数的良好值(例如,通过CV),重要的是要以正确的比例进行搜索。因此,我们为和了具有正确数量级的默认值。在类问题中,我们将所有数据点的成对距离的分位数用作的默认值。的默认值是特征空间中经验方差的逆,可以通过计算得出 从内核矩阵。Cσc1/cDijρσCs2s2=1niKii1n2i,jKijn×nK

随后,他们使用的倍数(例如,为)的默认值作为搜索范围的以网格搜索使用交叉验证。这对我来说一直很好。2kk{2,...,2}

当然,我们@ciri说,将数据标准化等总是一个好主意。


我认为有几个相等的rbf内核公式。一个带有伽玛,另一个带有sigma,即gamma = 1 / 2sigma ^ 2。上面的启发式方法中的伽马对应于gamma,sigma或sigma ^ 2吗?我发现了针对伽玛的相同启发式的其他描述。
机械

如果您检查链接的文件,则为12σ2
fabee

@fabee是否应该手动进行对等测试?没有图书馆可以实现吗?
x-rw
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.