高斯RBF与高斯核


Answers:


19

唯一真正的区别在于所应用的正则化。正规化的RBF网络通常使用基于权重平方平方的惩罚。对于内核版本,代价通常取决于隐含在由内核引入的特征空间中的线性模型的权重的平方范数。这造成的主要实际差异是,RBF网络的惩罚取决于RBF网络的中心(并因此取决于所使用的数据样本),而RBF内核的诱导特征空间是相同的,而与样本的样本无关。数据,因此惩罚是对模型功能的惩罚,而不是模型的参数化

换句话说,对于两个模型

f(x)=i=1αiK(xi,x)

对于RBF网络方法,训练准则为

L=i=1(yif(xi))2+λα2

对于RBF内核方法,我们有K(x,x)=ϕ(x)ϕ(x)w=i=1αiϕ(xi)。这意味着可以根据对偶参数\ vec {\ alpha}将归纳特征空间中模型权重的平方范数惩罚w编写为α

w2=αTKα,

其中是所有训练模式下内核的成对评估。然后训练准则是K

L=i=1(yif(xi))2+λαTKα

两种模型之间的唯一区别是正则项中的。K

内核方法的关键理论优势在于,它允许您将非线性模型解释为遵循固定非线性变换的线性模型,该变换不依赖于数据样本。因此,对于线性模型存在的任何统计学习理论都会自动转换为非线性版本。但是,一旦您尝试调整内核参数,所有这些都将崩溃,在这一点上,从理论上讲,我们回到了与RBF(和MLP)神经网络相同的位置。因此,理论上的优势可能并不如我们所愿。

在性能方面是否有可能产生任何真正的变化?大概不多。“无免费午餐”定理表明,任何算法都不比其他算法具有先验优势,并且正则化的差异非常微妙,因此如有疑问,请尝试两者并根据例如交叉验证选择最佳方法。


1
@CagdasOzgenc是的,对于RBF,正则化器为而不是用于内核计算机。随着基函数的宽度接近零(随着接近它们将变得更加相似。我认为这主要是因为在说明基本函数之间的相关性。→交通α Ťα2=αTIα ķķαTKαKIK
迪克兰有袋动物馆

@CagdasOzgenc我的看法是,正则化器中的对每个基向量对惩罚的加权不同,并且惩罚取决于其他基向量的选择。该权重取决于它们的相关性,因此,如果您选择其他样本,则权重会发生变化以进行补偿。另一种看待它的方式是在确定的特征空间中定义模型,该空间不依赖于基本向量的选择(前提是它们跨越包含数据的空间)。φ X Kϕ(x)
迪克兰有袋动物博物馆,

@CagdasOzgenc当然,我们可以通过对进行特征分解来变换基函数的空间,并重新获得样式正则化器(实际上,这是优化正则化参数的有用技巧- doi.org/10.1016/j.neunet.2007.05.005)。但是,这种转换消除了对基函数原始选择的依赖性。为了使两个条件相等,需要,但通常情况并非如此(特别是对于RBF内核而言)。→交通α ' 2 →交通α Ť ķ →交通α = μ →交通α Ť →交通αKα2αTKα=μαTIα
迪克兰有袋动物”,

谢谢。我会思考,这将回复您。目前,我似乎还没有达到您的理解水平。我需要做更多的思考:)。
Cagdas Ozgenc

@CagdasOzgenc没问题,大多数标准文本通过内核函数的本征函数对其进行解释,这也使我的大脑受伤!; o)
迪克兰有袋动物博物馆,2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.