内核化技巧,用于神经网络


9

我一直在学习神经网络和SVM。我阅读的教程强调了内核化对于SVM的重要性。没有内核功能,SVM只是线性分类器。通过内核化,SVM还可以合并非线性功能,这使它们成为更强大的分类器。

在我看来,也可以将内核化应用于神经网络,但是我见过的神经网络教程都没有提到这一点。人们通常在神经网络中使用内核技巧吗?我认为一定有人尝试过它,看看它是否有很大的不同。内核化对神经网络的帮助与对SVM的帮助一样吗?为什么或者为什么不?

(我可以想像几种将核技巧整合到神经网络中的方法。一种方法是使用合适的核函数将输入(的向量)预处理为高维输入,R m中的向量对m ñ。对于多层神经网络,另一种方法是在神经网络的每个级别应用内核函数。)RnRmmn


2
当您对数据点的计算访问包括计算内部产品时,内核技巧就起作用了。我不确定神经网络就是这种情况。
Yuval Filmus 2013年

Answers:


6

我认为您可能会以某种混淆方式混淆术语。SVM通过定义线性决策边界(即超平面)来工作。我们可以根据点之间的内积来定义此超平面。因此,如果我们将内部乘积定义为处于某个高维甚至无限维的空间中,那么在此新空间中看起来像一个超平面的东西在原始特征空间中就不一定是线性的。因此,一切仍然是线性的,我们唯一要做的就是将这些点隐式地(通过新的内积)嵌入到更高维度的空间中。也许您已经知道了这一切。

关于神经网络,有两个问题要考虑。第一个是@Yuval Filmus提出的,因为隐藏层神经网络不仅仅依赖于点之间的内部乘积。如果删除隐藏层,则将只有逻辑回归之类的东西,其中包含内核版本。也许有办法解决这个问题,但我看不到。

其次,您提到了通过投影到更高但不是无限的尺寸空间中来预处理输入。神经网络定义了决策表面,并且该表面不限于线性。这意味着将这些点投影到更高维度的空间中所获得的收益将有所不同,即,它可以使找到一组良好的权重变得更加容易,但是我们并不一定会使我们的模型变得更强大。这是从通用逼近定理得出的,该定理告诉我们,在有足够多的隐藏单元的情况下,我们可以近似任何函数(在某些限制下)。最后的陈述是虚空的,我有点讨厌提及。通过不告诉您有关如何找到合适权重的任何信息,从应用程序角度来看并没有多大帮助。


谢谢。是。我知道我们可以将SVM视为将原始输入映射到某个更高(甚至无限)的维空间,然后在该更高维的空间中进行线性决策边界。那么,我们也可以使用神经网络来做到这一点吗?我们可以将输入映射到更高维度的空间,然后将其视为对神经网络的实际输入吗?我想我们可以(如果需要的话,我想我们也可以在每一层上做到这一点)。而且,如果可以的话,我真正的问题是:这是否会像对SVM一样,对神经网络(在实践中)提供最大的改进?为什么或者为什么不?
DW

我知道通用逼近定理,但这并不能真正回答问题(如您所指出的)。我关心的是神经工作在实践中的运作情况。我想知道通过内核化技巧对输入进行预处理是否会使神经网络在实践中趋于更好地工作。当然,我们无法保证,在某些情况下,您所做的任何事情都会使情况变得更糟,但是我想知道实践中的典型行为(在某种意义上,我们说内核化倾向于使SVM更加有效。实践)。
DW

2
@DW内核化使SVM更加有效的原因是因为它允许它们定义非线性决策边界。神经网络已经可以定义非线性决策边界,因此将数据投影到更高维度空间的唯一好处就是可以使优化问题变得更加容易。
2013年

1

由于SVM的学习过程具有特殊的属性,因此对于SVM来说,内核技巧是可能的。神经网络似乎没有该属性(据我所知)。

在训练集中的点。通常,您希望机器学习算法会查看x i的值。但是,SVM学习过程具有相当显着的特性。它不需要知道x i的值。它足以能够计算X X Ĵ任何期望对输入点(即,来计算点积对应于任一所选的输入向量); 这就是SVM学习过程的全部需求。X1个Xñ[RdX一世X一世X一世XĴ

SVM学习过程的这一特殊属性使我们可以使用内核技巧。我们可以定义一个核函数以使K x ix j是输入的某些非线性变换的点积。如果我们通过一个非线性变换变换所述输入向量φ - [R dř(对于一些> d),则我们定义ķ X X Ĵ= φ X ·&φķķX一世XĴϕ[Rd[R>d。接下来酷的特性是,对于一些非线性变换 φ,可以计算 ķ X X Ĵ比计算更有效 φ X φ X Ĵ明确,然后计算它们的点积; 你可以计算 ķ X X Ĵ Ô d 时间(比方说),而不是 Ø ķX一世XĴ=ϕX一世ϕXĴϕķX一世XĴϕX一世ϕXĴķX一世XĴØdØ 时间。

X一世XĴķX一世XĴX一世


1

我想分享我的一些看法。输入维数:144。我训练了一个神经网络,在训练过程中,将隐藏层的输出作为逻辑回归的输入,并绘制了拟合模型后损失函数的平均值。在此处输入图片说明

在此处输入图片说明

我们可以看到,随着图层大小的增加,隐藏图层的特征或输出变得线性可分离。尽管这是学习核化特征向量的目的,但神经网络似乎是在内部进行的。 在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.