大型数据集的高斯过程回归

10

我一直在从在线视频和讲义中学习有关高斯过程回归的知识，我的理解是，如果我们有一个包含个点的数据集，那么我们就假设数据是从维多元高斯模型中采样的。所以我的问题是在是百万分之一的情况下，高斯过程回归仍然有效吗？内核矩阵会不会很大，从而使过程完全无效？如果是这样，是否有适当的技术来处理此问题，例如多次重复从数据集中采样？处理这类案件有哪些好的方法？ $n$ $n$ $n$

— Iltl
source

3

为什么要使用高斯过程而不是用于处理大数据的东西？

— 蒂姆

7

有多种方法可以将GP扩展到大型数据集，例如：

低秩方法：这些方法旨在创建协方差矩阵的低秩近似。最著名的也许是尼斯特罗姆方法，该方法将数据投影到点的子集上。在此基础上，开发了FITC和PITC，它们使用伪点而不是观察到的点。这些包括在例如GPy python库中。其他方法包括随机傅立叶特征。

H矩阵：这些矩阵使用协方差矩阵的分层结构，并对每个结构子矩阵应用低秩逼近。这在流行的库中不太常见。

Kronecker方法：这些方法使用协方差矩阵的Kronecker乘积，以加快计算的总瓶颈。

贝叶斯委员会机器：这涉及将数据拆分为子集，并使用GP对其进行建模。然后，您可以使用输出的最佳贝叶斯组合来组合预测。这是很容易实现的，而且很快，但是您担心的是您的内核有点中断-Mark Deisenroth的论文应该足够容易在此处遵循。

— j__
source

5

通常，您可以做的是在数据集的子样本上训练高斯过程（装袋）。套袋是在sk learning中实现的，可以轻松使用。请参阅示例文档。

调用个观察值，使用的包数，每个包的点数，这可以将训练时间从更改为。因此，使用小袋子但使用所有数据，您可以缩短培训时间。不幸的是，这通常会降低模型的性能。 $n$ $n_{bags}$ $n_{p}$ $O(n^3)$ $O(n_{bags}n_{p}^3)$

$O(n)$

— RUser4512
source

5

您问：

在𝑛是百万分之一的情况下，高斯过程回归仍然有效吗？

从标准意义上讲，不是构造和求逆大型矩阵。您有两种选择：1）选择其他模型或2）进行近似。

1）一些基于GP的模型可以缩放到非常大的数据集，例如上面答案中链接的贝叶斯委员会机器。但是，我发现这种方法并不令人满意：选择GP模型是有充分的理由的，如果我们要切换到可计算性更高的模型，则可能无法保留原始模型的属性。例如，BCM的预测方差很大程度上取决于数据拆分。

2）GP中近似的“经典”方法是近似核矩阵。此处对这些方法进行了很好的回顾：http : //www.jmlr.org/papers/volume6/quinonero-candela05a/quinonero-candela05a.pdf。实际上，我们通常可以将这些矩阵近似视为模型近似，并用贝叶斯委员会机器将它们混为一谈：它们是对模型的更改，很难理解这些更改何时可能是病理性的。这是一个超级评论：https : //papers.nips.cc/paper/6477-understanding-probabilistic-sparse-gaussian-process-approximations.pdf

我主张对大型GP进行近似的方法是避免近似核矩阵或模型，并使用变分推断近似后验分布。许多计算看起来像是“低秩”矩阵逼近，但是有一个非常理想的属性：您使用的计算越多（“秩”越多），逼近就越接近真实后验（如KL所度量）分歧。

这些文章是一个很好的起点：http : //proceedings.mlr.press/v5/titsias09a/titsias09a.pdf https://arxiv.org/pdf/1309.6835

我在这里针对相同的论点写了更长的文章：https : //www.prowler.io/blog/sparse-gps-approximate-the-posterior-not-the-model

实际上，在很多情况下，变分逼近效果很好。我已经在实际应用中广泛使用了它。最近，有一些优秀的理论来证明它为什么应该起作用（https://arxiv.org/abs/1903.03571）。

最后一个插件：gpflow（https://github.com/GPflow/GPflow）实现了GP中的变分推理。

— 詹姆斯·亨斯曼
source

1

仅作记录，如果有人遇到这个问题并且不知道，詹姆斯将与迈克·奥斯本（Mike Osborne），尼尔·劳伦斯（Neill Lawrence）等一起成为该领域的权威之一-他很

— 高兴