有哪些方法可以调整图形内核SVM超参数?


10

我有一些数据存在于图。顶点属于两个类别之一Ÿ { - 1 1 },我很感兴趣,训练的SVM两个类之间进行区分。这样做的一个适当的内核是扩散核,其中,是拉普拉斯的和是调谐参数。G=(V,E)yi{1,1}K=exp(βL),LGβ

调整SVM需要选择超参数,因此我必须调整按照惯例,我们对这个问题使用交叉验证,但是在这里似乎不合适,因为从删除顶点改变整个图,甚至可能增加连接的组件的数量!如果连接的组件的数量发生变化,则某些顶点将变得无法与其他顶点联系,并且我们将面临与开始时非常不同的数据集。也就是说,我们不仅会丢失已删除的顶点,而且还会丢失关于图形中与该顶点相邻的所有其他顶点信息。θ=(β,C).iGij

交叉验证的基本概念是,我们想近似模型在被提供新数据时的性能。在标准问题中,省略某些测试数据不会更改其余训练数据的值。但是,对于图形数据,不清楚模型在CV设置中看到“新”数据的含义。省略顶点或边可能会完全更改数据。例如,设想的图表这是一个 -star曲线图,其中一个顶点有边缘顶点,和所有其他顶点具有1个边缘。省略中心顶点以构造训练数据S=(VS,ES)kkkS将完全断开图形,并且内核矩阵将是对角的!但是当然可以在提供的训练数据上训练模型。尚不清楚的是,然后测试所得模型的样本外性能意味着什么。是否可以重新计算的内核矩阵,并提供该矩阵以进行预测?SS

或者,是否可以从整体上计算的内核矩阵开始,并根据需要省略行和列以产生用于估计SVM的内核矩阵?这提出了自己的概念性问题,因为在S中包含中心节点意味着每个顶点都可以从其他每个顶点到达,并且内核矩阵密集。这种包含是否意味着跨折存在信息泄漏,并使交叉验证输出偏斜?一方面,由于省略的中央节点使图相连,因此仍然存在有关省略的中央节点的数据。另一方面,我们对标签y一无所知SS ÿ ,因此我们可以从以这种方式执行CV得到合理无偏的样本外估计中感到满意。

如何针对此类问题选择超参数?简历不完美但可以接受,还是我们需要专门的方法?在我的上下文中,是否甚至可以进行超参数调整?


寻找频谱方法的样本外扩展。我在论文中应用了一些图像分类技术(现在回想起来,我做的事情会有所不同)。结果很有趣,但是模型本身非常脆弱,不容易调整。
弗拉迪斯拉夫(Vladislavs Dovgalecs)2015年

@xeon关于从何处着手阅读此文献的任何建议?
Sycorax说恢复Monica 2015年

Answers:


3

免责声明:我对图形内核不是很熟悉,因此此答案可能基于错误的假设。我同意在计算内核矩阵时省略顶点是次优的。也就是说,我不确定交叉验证是否一定有问题。您的学习环境是转导还是归纳?

总的来说,我不相信基于所有数据(即训练和测试)为给定计算内核矩阵必然会造成信息泄漏。如果事实证明可以根据所有数据计算内核,则可以使用(预先计算的)完整内核矩阵的相关模块进行典型的简历设置来训练模型,以进行训练/测试。β

βCβC


马克,谢谢您的关注。我的问题是归纳法。我的直觉是您是正确的,并且我们为所有数据计算完整的内核矩阵,然后根据需要省略行和列以生成CV内核。您是否会发现有任何提及此效果的信息?
Sycorax说恢复莫妮卡

并不是马上,但是我有一些同事正在研究我可以问到的类似问题(内核频谱聚类)。也许他们有参考和/或更好的想法。我知道更多时会更新。
马克·克莱森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.