高斯核如何很好地分离似乎任何种类的非线性数据?请给出直观的分析,并在可能的情况下进行数学分析。
其他内核所没有的高斯内核(具有理想的)的特性是什么?我想到了神经网络,SVM和RBF网络。
- 为什么我们不通过Cauchy PDF规范并期望得到相同的结果?
高斯核如何很好地分离似乎任何种类的非线性数据?请给出直观的分析,并在可能的情况下进行数学分析。
其他内核所没有的高斯内核(具有理想的)的特性是什么?我想到了神经网络,SVM和RBF网络。
Answers:
我认为魔术的关键是平滑度。接下来的我很长的答案只是为了解释这种平滑性。它可能不是您期望的答案。
简短答案:
给定正定核,则存在其对应的函数。函数的属性由内核确定。事实证明,如果是高斯核,中的函数非常平滑。因此,学习的函数(例如,回归函数,RKHS和内核PCA中的主成分)非常平滑。通常,平滑度假设对于我们要处理的大多数数据集都是明智的。这解释了为什么高斯核是神奇的。ħ ķ ħ
关于高斯内核为何提供平滑函数的长答案:
正定核定义(隐式)内积 表示从输入构造的特征向量,而 是希尔伯特空间。符号 装置之间的内积和。就我们的目的而言,您可以想象是通常的欧几里得空间,但可能具有无限个维数。想象一下无限长的普通矢量,例如ķ (X ,ÿ )= ⟨ φ (X ),φ (ÿ )⟩ ħ φ (X )X ħ ⟨ φ (X ),φ (ÿ )⟩ φ (X )ħ φ (X )= (φ 1(X ),φ 2(X ),... ) ħ ˚F (X )= ⟨ ˚F ,φ (X )⟩ ˚F (X )˚F X φ (X )˚F (x )k。在内核方法中,是称为复制内核希尔伯特空间(RKHS)的函数空间。该空间具有一个称为``再现属性''的特殊属性,即。这就是说,要评估,首先要为构造特征向量(无限长)。然后,为(无限长)表示的构造特征向量。的评估是通过取两者的内积给出的。显然,在实践中,没有人会构造无限长的向量。由于我们只在乎其内积,因此我们直接评估内核。绕过显式特征的计算并直接计算其内部乘积被称为“内核技巧”。
有哪些功能?
我一直在说而未指定它们是什么。给定内核,功能不是唯一的。但是 是唯一确定的。为了解释功能的平滑性,让我们考虑傅立叶特征。假设翻译不变核,意思是 即,该核仅取决于两个参数的差。高斯核具有此属性。让表示傅里叶变换的。ķ ⟨ φ (X ),φ (ÿ )⟩ ķ ķ (X ,ÿ )= ķ (X - Ý )ķ ķ
在这种傅立叶观点中,的特征 由。这就是说,函数的特征表示形式是函数 的傅里叶变换除以内核傅里叶变换。的特征表示,它是 是 ,其中。可以证明复制属性成立(对读者的一种练习)。˚F := ( ⋯ ,˚F升 / √˚FķXφ(X)(⋯,√我=√
像在任何希尔伯特空间中一样,属于该空间的所有元素都必须具有有限范数。让我们考虑的平方范数:
那么,该范数何时是有限的,即属于空间?此时下降速度要快于以便总和收敛。现在,高斯核的傅立叶变换
是另一个高斯其中减小呈指数快速与。因此,如果在此空间中,则其傅立叶变换的下降速度必须比下降更快。这意味着该功能将实际上仅具有少数具有高权重的低频分量。仅具有低频成分的信号不会``摆动''太多。这解释了为什么高斯内核为您提供平滑的功能。
补充:Laplace内核如何?
如果考虑拉普拉斯内核,则 其傅立叶变换是柯西分布,其下降速度比指数慢函数在高斯核的傅立叶变换中的作用。这意味着函数将具有更多的高频分量。结果,拉普拉斯内核给出的函数比高斯内核给出的函数``更粗糙''。
其他内核所没有的高斯内核的特性是什么?
无论高斯宽度如何,高斯核都是一个``通用的''属性。直观上,这意味着,给定有界连续函数(任意),存在一个函数,使得和 接近(在达到所需的任意精度。基本上,这意味着高斯核给出的函数可以很好地任意近似“好的”(有界,连续)函数。高斯核和拉普拉斯核是通用的。例如,多项式内核不是。
为什么我们不通过Cauchy PDF规范并期望得到相同的结果?
通常,只要结果为正定,就可以执行任何您喜欢的操作 。正定性定义为 对于所有,和所有 (自然数集) 。如果不是正定的,则它不对应于内积空间。因为您甚至没有提到的函数空间,所以所有分析都中断了 。尽管如此,它可能凭经验工作。例如,双曲正切核(请参阅本页第 7 )
旨在模仿神经网络中的S型激活单元,对于和某些设置仅是正定的。仍然有报道说它在实践中可行。
那其他种类的功能呢?
我说功能不是唯一的。对于高斯内核,Mercer扩展给出了另一组功能。参见著名的高斯过程书的 4.3.1节。在这种情况下,特征是在评估的Hermite多项式。
我将尽我最大的努力回答这个问题,不是因为我是该主题的专家(恰恰相反),而是因为我对这个领域和主题感到好奇,并认为这可能是一次很好的教育经历。无论如何,这是我对该主题的简短业余研究的结果。
TL; DR:我认为研究论文“正则化运算符和支持向量内核之间的联系”的以下内容是该问题的简短答案:
在一般平滑度假设下,高斯核往往会产生良好的性能,尤其是在没有其他可用数据知识的情况下,应考虑使用高斯核。
现在,一个详细的答案(据我所知;有关数学的详细信息,请使用参考文献)。
众所周知,主成分分析(PCA)是一种非常受欢迎的降维方法,可以单独使用它或对数据进行后续分类:http : //www.visiondummy.com/2014/05/feature-extraction-using-pca。但是,在某些情况下,当数据带有非线性相关性(换句话说,是线性不可分割的)时,传统的PCA不适用(效果不佳)。对于那些情况,可以使用其他方法,非线性PCA是其中一种。
通常使用笼统术语“内核PCA”(kPCA)来指代PCA基于使用内核功能的方法。使用高斯径向基函数(RBF)内核可能是最流行的变体。多种来源对此方法进行了详细描述,但是我非常喜欢Sebastian Raschka在此博客文章中所作的出色解释。但是,尽管提到了使用除高斯RBF之外的内核函数的可能性,但由于其受欢迎程度,该帖子重点介绍了后者。这篇不错的博客文章介绍了内核近似和内核技巧,并提到了高斯内核在PCA中受欢迎的另一个可能原因:无穷维。
在Quora上的几个答案中可以找到更多的见解。特别是,阅读这篇精彩的讨论会揭示有关高斯内核流行的潜在原因的几点,如下。
高斯核是通用核,即它们的使用和适当的正则化保证了全局最优的预测器,该预测器使分类器的估计误差和逼近误差均最小化。
高斯RBF内核非常流行,并且是很好的默认内核,尤其是在缺乏有关数据和领域的专业知识的情况下,因为它也包含多项式和线性内核。线性核和多项式核是高斯RBF核的特例。高斯RBF核是非参数模型,这实际上意味着模型的复杂性可能是无限的,因为解析函数的数量是无限的。
高斯核只是一个带通滤波器;它选择最平滑的解决方案。当高阶导数的无穷和收敛最快时,高斯核将发挥最佳作用,而这对于最平滑的解而言就是如此。
最后,这个不错的答案还有其他几点:
笔记:
以上关于高斯核是最佳选择的参考点,尤其是在没有数据先验知识的情况下,由以下CV答案中的以下句子支持:
在缺乏专业知识的情况下,“径向基函数”内核会成为一个很好的默认内核(一旦您确定这是一个需要非线性模型的问题)。
对于那些对高斯RBF内核和标准高斯内核之间的非本质差异感到好奇的人,可能会对此感兴趣:https : //stats.stackexchange.com/a/79193/31372。
对于那些有兴趣实施kPCA娱乐或商务活动的人,这篇不错的博客文章可能会有所帮助。它是由Accord.NET的一位作者(创建者?)编写的-Accord.NET是一个非常有趣的.NET开源框架,用于统计分析,机器学习,信号处理等。
让我投入我的两分钱。
在某种意义上,我对高斯核的思考是最近邻分类器。高斯核的作用是用距数据集中所有其他点的距离表示每个点。现在考虑具有线性或多项式边界的分类器,边界仅限于某些形状。但是,当您查看最近的邻居时,边界实际上可以采用任何形状。这就是我认为为什么我们也将高斯核视为非参数核,即根据数据调整边界。另一种思考的方式是高斯核调整为区域中的局部形状,类似于最近的邻居如何通过查看与局部区域中其他点的距离来局部调整边界。
我对此没有数学上的论据,但我认为高斯核实际上映射到无限维空间这一事实与它的成功有关。对于线性和多项式内核,点积取在有限维空间中。因此,在更大的空间中执行操作似乎更强大。我希望有人对这些事情有更好的了解。这也意味着,如果我们可以找到具有无限维空间的其他内核,那么它们也应该非常强大。不幸的是,我对任何这样的内核都不熟悉。
对于您的最后一点,我认为考奇pdf或以某种方式测量到其他点的距离的任何其他pdf应该同样有效。再次,我没有一个很好的数学论据,但是与最近邻居的联系使这看起来合理。
编辑:
以下是有关如何将高斯核作为最近邻分类器的分类器的一些想法。首先,让我们考虑一下最近邻分类器的作用。本质上,最近邻居分类器是使用点之间的距离作为输入的标准分类器。更正式地说,假设我们通过计算数据点与所有其他点的距离,为数据点创建一个特征表示。 在上面,是距离函数。然后,最邻近的分类器所做的是基于此特征表示和数据的类标签来预测点的类标签。 其中
我对内核的看法是,它们做类似的事情。他们使用其核值与数据集中的其他点创建每个点的特征表示。与最近邻居的情况类似,更正式的是 现在,与最近邻居的连接非常明显;如果我们的核函数是某种与我们在最近邻分类器中使用的距离度量相关的度量,那么我们基于核的分类器将类似于最近邻模型。
注意:我们使用内核训练的分类器不能直接与这些表示一起使用,但是我认为这是它们隐式执行的操作。
原因是高斯内核的VC维是无限的,因此,只要给定参数(sigma)的正确值,它们就可以正确分类任意数量的样本。
RBF之所以行之有效,是因为它们确保矩阵是满秩的。这个想法是,并且可以通过减小的值来任意减小对角线项。注意,内核对应于特征空间中的点积。在此特征空间中,维是无限的(考虑到指数的级数展开)。因此,可以将其视为以不同维度投影这些点,以便您可以将它们分开。ķ (X 我,X 我)> 0 σ
您可以看一下这篇文章,尽管它是非常技术性的。关于SVM的标准书籍之一应该使这个概念更易于使用。