我有12个积极的训练集(用药物治疗的癌细胞具有12种不同的作用机制中的每一种)。对于这些正面训练集,我想训练一个支持向量机,以将其与从实验中采样的大小相等的负面集合区分开来。每组具有1000到6000个像元,每个像元有476个特征(图像特征),每个特征线性缩放为[0,1]。
我使用LIBSVM和高斯RGB内核。使用五重交叉验证,我对log 2 C∈[-5,15]和log 2ɣ∈[-15,3]进行了网格搜索。结果如下:
令我感到失望的是,没有一个参数集可以为所有12个分类问题提供高精度。我也感到惊讶的是,网格通常不会显示出由较低精度包围的高精度区域。这是否仅表示我需要扩展搜索参数空间,还是网格搜索是否表明存在其他问题?
2
再失望:你不会指望每个问题具有相同的参数,那么,为什么会你期望的问题分享好的值的超参数(LOG伽玛和C)?
—
conjugateprior
@Conjugate Prior:训练集是同一实验的子集,阴性训练集是从相同总体中采样的,因此我希望相同的RBF核宽度be是有效的。因为正数集与相同的背景(负数)群体有所区别,所以我希望理想的罚分C也将相似。如果不是这种情况,它将使SVM真正难以应用。例如,轻柔的增强似乎更容易调整。
—
Vebjorn Ljosa 2011年
啊哈 但是在我看来,尽管从物理意义上讲这是相同的实验,但是您仍然在统计学意义上攻击不同的问题。特别是如果对每种治疗都对阴性病例进行了重新采样。
—
conjugateprior
顺便说一句,网格搜索效率相当低,Nelder-Mead单纯形优化算法和梯度下降优化方法都非常有效。网格搜索很简单,但是有点“蛮力”。
—
Dikran有袋动物2011年
@Vebjorn Ljosa(一年后),这5个值在最终(C,伽玛)中说多少?12个地块的比例尺是否都相同,例如50%.. 100%正确的预测?谢谢
—
denis