SVM网格搜索是否应显示周围的准确性较低的高精度区域?


12

我有12个积极的训练集(用药物治疗的癌细胞具有12种不同的作用机制中的每一种)。对于这些正面训练集,我想训练一个支持向量机,以将其与从实验中采样的大小相等的负面集合区分开来。每组具有1000到6000个像元,每个像元有476个特征(图像特征),每个特征线性缩放为[0,1]。

我使用LIBSVM和高斯RGB内核。使用五重交叉验证,我对log 2 C∈[-5,15]和log 2ɣ∈[-15,3]进行了网格搜索。结果如下:

网格搜索结果

令我感到失望的是,没有一个参数集可以为所有12个分类问题提供高精度。我也感到惊讶的是,网格通常不会显示出由较低精度包围的高精度区域。这是否仅表示我需要扩展搜索参数空间,还是网格搜索是否表明存在其他问题?


2
再失望:你不会指望每个问题具有相同的参数,那么,为什么你期望的问题分享好的值的超参数(LOG伽玛和C)?
conjugateprior

@Conjugate Prior:训练集是同一实验的子集,阴性训练集是从相同总体中采样的,因此我希望相同的RBF核宽度be是有效的。因为正数集与相同的背景(负数)群体有所区别,所以我希望理想的罚分C也将相似。如果不是这种情况,它将使SVM真正难以应用。例如,轻柔的增强似乎更容易调整。
Vebjorn Ljosa 2011年

啊哈 但是在我看来,尽管从物理意义上讲这是相同的实验,但是您仍然在统计学意义上攻击不同的问题。特别是如果对每种治疗都对阴性病例进行了重新采样。
conjugateprior

1
顺便说一句,网格搜索效率相当低,Nelder-Mead单纯形优化算法和梯度下降优化方法都非常有效。网格搜索很简单,但是有点“蛮力”。
Dikran有袋动物2011年

@Vebjorn Ljosa(一年后),这5个值在最终(C,伽玛)中说多少?12个地块的比例尺是否都相同,例如50%.. 100%正确的预测?谢谢
denis

Answers:


9

对于不同的学习任务,超参数的最佳值将有所不同,您需要针对每个问题分别进行调整。

之所以没有一个最优值,是因为内核参数和正则化参数都控制着模型的复杂性。如果C很小,您将得到一个平滑模型,如果C的内核很宽,同样,您将得到一个平滑模型(因为基本函数不是很局部)。这意味着C和内核宽度的不同组合会导致相似的复杂模型和相似的性能(这就是为什么在许多图形中都有对角线特征的原因)。

最佳值还取决于训练集的特定采样。可能会过度拟合交叉验证错误,因此,如果运气不好,通过交叉验证选择超参数实际上会使性能变差。请参阅Cawley和Talbot对此进行一些讨论。

支持您获得相似好的值的超参数具有宽泛的平稳期这一事实实际上是支持向量机的一个好功能,因为它表明它们在模型选择中不太容易过拟合。如果您在最佳值处有一个尖锐的峰,那将是一件坏事,因为很难使用有限的数据集找到该峰,这将无法可靠地指示该峰实际位于何处。


顺便说一句,我正在使用网格搜索进行模型选择的过度拟合研究,结果比我想象的要有趣得多。即使只有很少的超参数,但如果您在过于精细的网格上进行优化,您仍然可以过度拟合模型选择标准!
Dikran有袋动物2012年

我现在即将完成模拟工作,希望我可以在一两个月内提交论文……
Dikran Marsupial 2012年

我想读一下那篇论文是否完成?我在网格搜索优化中遇到了一些奇怪的高峰等问题,这似乎与您在此处讨论的内容相似。
BGreene 2012年

现在,所有模拟工作都已完成,我现在只是将纸张放在一起(主要是确保所有纸张都完全可复制)。我已经保存了所有网格,因此应该可以进行一些重新分析,以解决我当时没有想到的其他问题。
迪克兰有袋博物馆,2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.