是什么使Gaussian内核对PCA如此神奇？

67

我在读有关内核PCA（1，2，3）用高斯和多项式内核。

高斯核如何很好地分离似乎任何种类的非线性数据？请给出直观的分析，并在可能的情况下进行数学分析。
其他内核所没有的高斯内核（具有理想的）的特性是什么？我想到了神经网络，SVM和RBF网络。 $\sigma$
为什么我们不通过Cauchy PDF规范并期望得到相同的结果？

— 西蒙·匡
source

1

+1。我几乎忽略了这个好问题，因为它没有[pca]标签！现在编辑。

— 变形虫

4

好问题。我想知道答案是否可能是“哦，是的，许多其他内核也可以工作，但高斯众所周知/很容易”

— Stumpy Joe Pete 2015年

@StumpyJoePete我认为这不是一个简单的答案。其他分布的location参数也是什么意思？还有哪些其他分布的尺度参数也是其方差？还有哪些其他发行版如此普遍直观？当然不是柯西分布-它甚至没有平均值！

— Shadowtalker'1

3

@ssdecontrol我很高兴被证明是错误的；我对问题和答案之一都表示赞同-我只是觉得我无聊，低调，通缩的答案是一个很好的默认值，应该反驳一个真实的答案。

— 笨拙的乔·皮特2015年

我想，这可能帮助：stats.stackexchange.com/questions/168051/...

54

我认为魔术的关键是平滑度。接下来的我很长的答案只是为了解释这种平滑性。它可能不是您期望的答案。

简短答案：

给定正定核，则存在其对应的函数。函数的属性由内核确定。事实证明，如果是高斯核，中的函数非常平滑。因此，学习的函数（例如，回归函数，RKHS和内核PCA中的主成分）非常平滑。通常，平滑度假设对于我们要处理的大多数数据集都是明智的。这解释了为什么高斯核是神奇的。 $k$ $\mathcal{H}$ $k$ $\mathcal{H}$

关于高斯内核为何提供平滑函数的长答案：

正定核定义（隐式）内积表示从输入构造的特征向量，而是希尔伯特空间。符号装置之间的内积和。就我们的目的而言，您可以想象是通常的欧几里得空间，但可能具有无限个维数。想象一下无限长的普通矢量，例如 $k(x,y)$ $k(x,y)=\left\langle \phi(x),\phi(y)\right\rangle _{\mathcal{H}}$ $\phi(x)$ $x$ $\mathcal{H}$ $\left\langle \phi(x),\phi(y)\right\rangle$ $\phi(x)$ $\phi(y)$ $\mathcal{H}$ $\phi(x)=\left(\phi_{1}(x),\phi_{2}(x),\ldots\right)$ 。在内核方法中，是称为复制内核希尔伯特空间（RKHS）的函数空间。该空间具有一个称为``再现属性''的特殊属性，即。这就是说，要评估，首先要为构造特征向量（无限长）。然后，为（无限长）表示的构造特征向量。的评估是通过取两者的内积给出的。显然，在实践中，没有人会构造无限长的向量。由于我们只在乎其内积，因此我们直接评估内核 $\mathcal{H}$ $f(x)=\left\langle f,\phi(x)\right\rangle$ $f(x)$ $f$ $x$ $\phi(x)$ $f(x)$ $k$ 。绕过显式特征的计算并直接计算其内部乘积被称为“内核技巧”。

有哪些功能？

我一直在说而未指定它们是什么。给定内核，功能不是唯一的。但是是唯一确定的。为了解释功能的平滑性，让我们考虑傅立叶特征。假设翻译不变核，意思是即，该核仅取决于两个参数的差。高斯核具有此属性。让表示傅里叶变换的。 $\phi_{1}(x),\phi_{2}(x),\ldots$ $k$ $\left\langle \phi(x),\phi(y)\right\rangle$ $k$ $k(x,y)=k(x-y)$ $\hat{k}$ $k$

在这种傅立叶观点中，的特征由。这就是说，函数的特征表示形式是函数的傅里叶变换除以内核傅里叶变换。的特征表示，它是是，其中。可以证明复制属性成立（对读者的一种练习）。 $f$ $f:=\left(\cdots,\hat{f}_{l}/\sqrt{\hat{k}_{l}},\cdots\right)$ $f$ $k$ $x$ $\phi(x)$ $\left(\cdots,\sqrt{\hat{k}_{l}}\exp\left(-ilx\right),\cdots\right)$ $i=\sqrt{-1}$

像在任何希尔伯特空间中一样，属于该空间的所有元素都必须具有有限范数。让我们考虑的平方范数： $f\in\mathcal{H}$

$\|f\|_{\mathcal{H}}^{2}=\left\langle f,f\right\rangle _{\mathcal{H}}=\sum_{l=-\infty}^{\infty}\frac{\hat{f}_{l}^{2}}{\hat{k}_{l}}.$

那么，该范数何时是有限的，即属于空间？此时下降速度要快于以便总和收敛。现在，高斯核的傅立叶变换 $f$ $\hat{f}_{l}^{2}$ $\hat{k}_{l}$ $k(x,y)=\exp\left(-\frac{\|x-y\|^{2}}{\sigma^{2}}\right)$

是另一个高斯其中减小呈指数快速与。因此，如果在此空间中，则其傅立叶变换的下降速度必须比下降更快。这意味着该功能将实际上仅具有少数具有高权重的低频分量。仅具有低频成分的信号不会``摆动''太多。这解释了为什么高斯内核为您提供平滑的功能。 $\hat{k}_{l}$ $l$ $f$ $k$

补充：Laplace内核如何？

如果考虑拉普拉斯内核，则其傅立叶变换是柯西分布，其下降速度比指数慢函数在高斯核的傅立叶变换中的作用。这意味着函数将具有更多的高频分量。结果，拉普拉斯内核给出的函数比高斯内核给出的函数``更粗糙''。 $k(x,y)=\exp\left(-\frac{\|x-y\|}{\sigma}\right)$ $f$

其他内核所没有的高斯内核的特性是什么？

无论高斯宽度如何，高斯核都是一个``通用的''属性。直观上，这意味着，给定有界连续函数（任意），存在一个函数，使得和接近（在达到所需的任意精度。基本上，这意味着高斯核给出的函数可以很好地任意近似“好的”（有界，连续）函数。高斯核和拉普拉斯核是通用的。例如，多项式内核不是。 $g$ $f\in\mathcal{H}$ $f$ $g$ $\|\cdot\|_{\infty})$

为什么我们不通过Cauchy PDF规范并期望得到相同的结果？

通常，只要结果为正定，就可以执行任何您喜欢的操作。正定性定义为对于所有，和所有（自然数集）。如果不是正定的，则它不对应于内积空间。因为您甚至没有提到的函数空间，所以所有分析都中断了。尽管如此，它可能凭经验工作。例如，双曲正切核（请参阅本页第 7 ） $k$ $\sum_{i=1}^{N}\sum_{j=1}^{N}k(x_{i},x_{j})\alpha_{i}\alpha_{j}>0$ $\alpha_{i}\in\mathbb{R}$ $\{x_{i}\}_{i=1}^{N}$ $N\in\mathbb{N}$ $k$ $\mathcal{H}$

$k(x,y) = tanh(\alpha x^\top y + c)$

旨在模仿神经网络中的S型激活单元，对于和某些设置仅是正定的。仍然有报道说它在实践中可行。 $\alpha$ $c$

那其他种类的功能呢？

我说功能不是唯一的。对于高斯内核，Mercer扩展给出了另一组功能。参见著名的高斯过程书的 4.3.1节。在这种情况下，特征是在评估的Hermite多项式。 $\phi(x)$ $x$

— ij
source

2

我暂时还不会授予悬赏，但是我很想授予这个答案，因为它非常针对这个问题，并且与其他内核进行了显着比较

— shadowtalker 2015年

最后这个问题得到了一个很好的答案！（+1）您在这里使用的符号使我感到困惑：在以下段落中。通过将作用于原始空间的函数与向量分更清晰的符号会更清晰，其中是一个函数？顺便说一下，通过“再现属性”保证可以“再现”哪些功能？所有？连续？光滑？

f (x) = ⟨ f, ϕ (x) ⟩

$f(x)=\left\langle f,\phi(x)\right\rangle$

f (x) = ⟨ Ψ (f), ϕ (x) ⟩

$f(x)=\left\langle \Psi(f),\phi(x)\right\rangle$

f (\cdot)

$f(\cdot)$

Ψ (f) \in H

$\Psi(f) \in \mathcal H$

Ψ (\cdot)

$\Psi(\cdot)$

— 变形虫

@amoeba在文献中，人们并不区分的表示形式和函数本身。如果需要，有时它们将用于表示，将用于函数。空间中的所有函数都具有复制属性。是否由内核指定是否平滑。:)

f

$f$

f

$f$

f (\cdot)

$f(\cdot)$

H

$\mathcal{H}$

— wij 2015年

更新了帖子。在tanh内核上添加了更多内容。

— wij 2015年

嗯，我觉得我很困惑。我们从向量空间，数据指向。然后我们选择一个正定核。然后，我们认为定理1成立：可以实现为某个希尔伯特空间上的点积，因此，其中。好的。现在您说，作用在上的任何函数都可以实现为中其表示的标量积。

X

$\mathcal X$

x

$x$

k (\cdot, \cdot) : X \times X \to R

$k(\cdot, \cdot): \mathcal X \times \mathcal X \to \mathbb R$

k

$k$

H

$\mathcal H$

k (x, y) = ⟨ ϕ (x), ϕ (y) ⟩

$k(x,y) = \langle \phi(x), \phi(y)\rangle$

ϕ : X \to H

$\phi:\mathcal X \to \mathcal H$

f (x)

$f(x)$

X

$\mathcal X$

f \in H

$f\in \mathcal H$ 与？这是正确的吗？

ϕ (x)

$\phi(x)$

— 变形虫

18

我将尽我最大的努力回答这个问题，不是因为我是该主题的专家（恰恰相反），而是因为我对这个领域和主题感到好奇，并认为这可能是一次很好的教育经历。无论如何，这是我对该主题的简短业余研究的结果。

TL; DR：我认为研究论文“正则化运算符和支持向量内核之间的联系”的以下内容是该问题的简短答案：

在一般平滑度假设下，高斯核往往会产生良好的性能，尤其是在没有其他可用数据知识的情况下，应考虑使用高斯核。

现在，一个详细的答案（据我所知；有关数学的详细信息，请使用参考文献）。

众所周知，主成分分析（PCA）是一种非常受欢迎的降维方法，可以单独使用它或对数据进行后续分类：http : //www.visiondummy.com/2014/05/feature-extraction-using-pca。但是，在某些情况下，当数据带有非线性相关性（换句话说，是线性不可分割的）时，传统的PCA不适用（效果不佳）。对于那些情况，可以使用其他方法，非线性PCA是其中一种。

通常使用笼统术语“内核PCA”（kPCA）来指代PCA基于使用内核功能的方法。使用高斯径向基函数（RBF）内核可能是最流行的变体。多种来源对此方法进行了详细描述，但是我非常喜欢Sebastian Raschka在此博客文章中所作的出色解释。但是，尽管提到了使用除高斯RBF之外的内核函数的可能性，但由于其受欢迎程度，该帖子重点介绍了后者。这篇不错的博客文章介绍了内核近似和内核技巧，并提到了高斯内核在PCA中受欢迎的另一个可能原因：无穷维。

在Quora上的几个答案中可以找到更多的见解。特别是，阅读这篇精彩的讨论会揭示有关高斯内核流行的潜在原因的几点，如下。

高斯核是通用的：

高斯核是通用核，即它们的使用和适当的正则化保证了全局最优的预测器，该预测器使分类器的估计误差和逼近误差均最小化。

高斯核是圆形的（导致上述无限维？）
高斯核可以表示“高度变化的地形”
引用作者可以更好地说明以下几点，支持上述主要结论：

高斯RBF内核非常流行，并且是很好的默认内核，尤其是在缺乏有关数据和领域的专业知识的情况下，因为它也包含多项式和线性内核。线性核和多项式核是高斯RBF核的特例。高斯RBF核是非参数模型，这实际上意味着模型的复杂性可能是无限的，因为解析函数的数量是无限的。

高斯核是最优的（关于平滑性，更多信息，请参见同一作者）：

高斯核只是一个带通滤波器；它选择最平滑的解决方案。当高阶导数的无穷和收敛最快时，高斯核将发挥最佳作用，而这对于最平滑的解而言就是如此。

最后，这个不错的答案还有其他几点：

高斯内核支持无限复杂的模型
高斯核更灵活

笔记：

以上关于高斯核是最佳选择的参考点，尤其是在没有数据先验知识的情况下，由以下CV答案中的以下句子支持：

在缺乏专业知识的情况下，“径向基函数”内核会成为一个很好的默认内核（一旦您确定这是一个需要非线性模型的问题）。

对于那些对高斯RBF内核和标准高斯内核之间的非本质差异感到好奇的人，可能会对此感兴趣：https : //stats.stackexchange.com/a/79193/31372。

对于那些有兴趣实施kPCA娱乐或商务活动的人，这篇不错的博客文章可能会有所帮助。它是由Accord.NET的一位作者（创建者？）编写的-Accord.NET是一个非常有趣的.NET开源框架，用于统计分析，机器学习，信号处理等。

— 亚历山大·布莱克（Aleksandr Blekh）
source

5

我赞赏并赞赏撰写此答案所付出的努力，但同时必须说，它引用了很多权威性不强的资料，并且仅提供了这种可能是正确的但可能也完全是假的。因此，RBF核是各向同性的平稳核，具有无限维的希尔伯特空间。好！还有其他具有这些属性的内核吗？如果是这样，为什么RBF会比所有这些更好？实际上，关于RBF优于此类竞争对手的说法是否有任何经验支持？

— 变形虫

@amoeba：谢谢您的客气话。关于我使用的资源，您部分正确-混合使用，某些资源仅是意见。但是，某些消息来源（例如，博客文章）本身也引用了可靠的论文。在这一点上，我更被解释的质量所吸引，而不是它的严格。至于您的问题，我准备稍后再解决。我需要阅读更多理论。我已经在经验支持下编译了源代码，但是需要更多时间进行系统化（还有一些睡眠，:)。

— Aleksandr Blekh

1

我有一种感觉，高斯具有实对称分布中最大熵事实上起着你对下一般假设性能好第一点的作用

— shadowtalker

2

另外@AleksandrBlekh这是一个很棒的编译。人们在Quora上之以

— 鼻，

@ssdecontrol：谢谢您的客气话。很高兴我们在同一主题上。我还有一些其他信息可解决变形虫的评论，因此，如果您有兴趣，请关注此空间。

— Aleksandr Blekh，2015年

8

让我投入我的两分钱。

在某种意义上，我对高斯核的思考是最近邻分类器。高斯核的作用是用距数据集中所有其他点的距离表示每个点。现在考虑具有线性或多项式边界的分类器，边界仅限于某些形状。但是，当您查看最近的邻居时，边界实际上可以采用任何形状。这就是我认为为什么我们也将高斯核视为非参数核，即根据数据调整边界。另一种思考的方式是高斯核调整为区域中的局部形状，类似于最近的邻居如何通过查看与局部区域中其他点的距离来局部调整边界。

我对此没有数学上的论据，但我认为高斯核实际上映射到无限维空间这一事实与它的成功有关。对于线性和多项式内核，点积取在有限维空间中。因此，在更大的空间中执行操作似乎更强大。我希望有人对这些事情有更好的了解。这也意味着，如果我们可以找到具有无限维空间的其他内核，那么它们也应该非常强大。不幸的是，我对任何这样的内核都不熟悉。

对于您的最后一点，我认为考奇pdf或以某种方式测量到其他点的距离的任何其他pdf应该同样有效。再次，我没有一个很好的数学论据，但是与最近邻居的联系使这看起来合理。

编辑：

以下是有关如何将高斯核作为最近邻分类器的分类器的一些想法。首先，让我们考虑一下最近邻分类器的作用。本质上，最近邻居分类器是使用点之间的距离作为输入的标准分类器。更正式地说，假设我们通过计算数据点与所有其他点的距离，为数据点创建一个特征表示。在上面，是距离函数。然后，最邻近的分类器所做的是基于此特征表示和数据的类标签来预测点的类标签。其中 $\phi_i$ $x_i$

ϕ_{i} = (d (x_{i}, x_{1}), d (x_{i}, x_{2}), \dots, d (x_{i}, x_{n}))

$\phi_i = (d(x_i,x_1), d(x_i, x_2), \ldots, d(x_i, x_n))$

d

$d$

p_{i} = f (ϕ_{i}, y)

$p_i = f(\phi_i, y)$

p_{i}

$p_i$ 是对数据点的预测，是对的类标签的向量。

x_{i}

$x_i$

y

$y$

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

我对内核的看法是，它们做类似的事情。他们使用其核值与数据集中的其他点创建每个点的特征表示。与最近邻居的情况类似，更正式的是现在，与最近邻居的连接非常明显；如果我们的核函数是某种与我们在最近邻分类器中使用的距离度量相关的度量，那么我们基于核的分类器将类似于最近邻模型。

ϕ_{i} = (k (x_{i}, x_{1}), k (x_{i}, x_{2}), \dots, k (x_{i}, x_{n}))

$\phi_i = (k(x_i, x_1), k(x_i, x_2), \ldots, k(x_i, x_n))$

注意：我们使用内核训练的分类器不能直接与这些表示一起使用，但是我认为这是它们隐式执行的操作。 $\phi_i$

— 高克
source

最近邻居的解释很有趣。您认为您可以对此进行扩展吗？我想我明白了，但不确定。

— shadowtalker

@ssdecontrol我添加了一些评论；我希望他们会有所帮助。

— goker

6

原因是高斯内核的VC维是无限的，因此，只要给定参数（sigma）的正确值，它们就可以正确分类任意数量的样本。

RBF之所以行之有效，是因为它们确保矩阵是满秩的。这个想法是，并且可以通过减小的值来任意减小对角线项。注意，内核对应于特征空间中的点积。在此特征空间中，维是无限的（考虑到指数的级数展开）。因此，可以将其视为以不同维度投影这些点，以便您可以将它们分开。 $K(x_{i},x_{j})$ $K(x_{i},x_{i}) > 0$ $\sigma$

相比之下，考虑线性核的情况，线性核只能破碎平面上的四个点。

您可以看一下这篇文章，尽管它是非常技术性的。关于SVM的标准书籍之一应该使这个概念更易于使用。

— 杰姆普克
source

1

“ RBF运作良好，因为它们确保矩阵是满秩的”：每个有效（Mercer）内核函数（包括线性函数）都是如此，因此我不确定它如何解释所谓的-RBF的性能。

K (x_{i}, x_{j})

$K(x_i,x_j)$

— user603 2015年

2

除了@ user603刚刚写的以外：还有其他流行的具有无限VC尺寸（目标空间尺寸）的内核吗？如果是这样，那么它们与RBF一样好吗？

— 变形虫

2

VC维不是一个分类器集合的属性，不是内核的属性吗？

— wij 2015年

2

@ user603：这不是事实。Mercer内核仅要求内核矩阵为正半定数；它们可以是单数。例如，如果在您的点集中，则线性核实际上会给出奇异的核矩阵。（当然，大多数内核严格地是正定的，因此这不是高斯RBF的特别特征。）

x_{i} = 0

$x_i = 0$

— Dougal 2015年