我有一些数据存在于图。顶点属于两个类别之一Ÿ 我 ∈ { - 1 ,1 },我很感兴趣,训练的SVM两个类之间进行区分。这样做的一个适当的内核是扩散核,其中,是拉普拉斯的和是调谐参数。
调整SVM需要选择超参数,因此我必须调整按照惯例,我们对这个问题使用交叉验证,但是在这里似乎不合适,因为从删除顶点改变整个图,甚至可能增加连接的组件的数量!如果连接的组件的数量发生变化,则某些顶点将变得无法与其他顶点联系,并且我们将面临与开始时非常不同的数据集。也就是说,我们不仅会丢失已删除的顶点,而且还会丢失关于图形中与该顶点相邻的所有其他顶点信息。
交叉验证的基本概念是,我们想近似模型在被提供新数据时的性能。在标准问题中,省略某些测试数据不会更改其余训练数据的值。但是,对于图形数据,不清楚模型在CV设置中看到“新”数据的含义。省略顶点或边可能会完全更改数据。例如,设想的图表这是一个 -star曲线图,其中一个顶点有边缘顶点,和所有其他顶点具有1个边缘。省略中心顶点以构造训练数据将完全断开图形,并且内核矩阵将是对角的!但是当然可以在提供的训练数据上训练模型。尚不清楚的是,然后测试所得模型的样本外性能意味着什么。是否可以重新计算的内核矩阵,并提供该矩阵以进行预测?
或者,是否可以从整体上计算的内核矩阵开始,并根据需要省略行和列以产生用于估计SVM的内核矩阵?这提出了自己的概念性问题,因为在S中包含中心节点意味着每个顶点都可以从其他每个顶点到达,并且内核矩阵密集。这种包含是否意味着跨折存在信息泄漏,并使交叉验证输出偏斜?一方面,由于省略的中央节点使图相连,因此仍然存在有关省略的中央节点的数据。另一方面,我们对标签y一无所知 ,因此我们可以从以这种方式执行CV得到合理无偏的样本外估计中感到满意。
如何针对此类问题选择超参数?简历不完美但可以接受,还是我们需要专门的方法?在我的上下文中,是否甚至可以进行超参数调整?