大型数据集的高斯过程回归


10

我一直在从在线视频和讲义中学习有关高斯过程回归的知识,我的理解是,如果我们有一个包含个点的数据集,那么我们就假设数据是从维多元高斯模型中采样的。所以我的问题是在是百万分之一的情况下,高斯过程回归仍然有效吗?内核矩阵会不会很大,从而使过程完全无效?如果是这样,是否有适当的技术来处理此问题,例如多次重复从数据集中采样?处理这类案件有哪些好的方法? ñññ


3
为什么要使用高斯过程而不是用于处理大数据的东西?
蒂姆

Answers:


7

有多种方法可以将GP扩展到大型数据集,例如:

低秩方法:这些方法旨在创建协方差矩阵的低秩近似。最著名的也许是尼斯特罗姆方法,该方法将数据投影到点的子集上。在此基础上,开发了FITC和PITC,它们使用伪点而不是观察到的点。这些包括在例如GPy python库中。其他方法包括随机傅立叶特征。

H矩阵:这些矩阵使用协方差矩阵的分层结构,并对每个结构子矩阵应用低秩逼近。这在流行的库中不太常见。

Kronecker方法:这些方法使用协方差矩阵的Kronecker乘积,以加快计算的总瓶颈。

贝叶斯委员会机器:这涉及将数据拆分为子集,并使用GP对其进行建模。然后,您可以使用输出的最佳贝叶斯组合来组合预测。这是很容易实现的,而且很快,但是您担心的是您的内核有点中断-Mark Deisenroth的论文应该足够容易在此处遵循。


5

通常,您可以做的是在数据集的子样本上训练高斯过程(装袋)。套袋是在sk learning中实现的,可以轻松使用。请参阅示例文档

调用个观察值,n b a g s使用的包数,n p每个包的点数,这可以将训练时间从O n 3更改为O n b a g s) n 3 p。因此,使用小袋子但使用所有数据,您可以缩短培训时间。不幸的是,这通常会降低模型的性能。ññb一个GsñpØñ3Øñb一个Gsñp3

Øñ


5

您问:

在𝑛是百万分之一的情况下,高斯过程回归仍然有效吗?

从标准意义上讲,不是构造和求逆大型矩阵。您有两种选择:1)选择其他模型或2)进行近似。

1)一些基于GP的模型可以缩放到非常大的数据集,例如上面答案中链接的贝叶斯委员会机器。但是,我发现这种方法并不令人满意:选择GP模型是有充分的理由的,如果我们要切换到可计算性更高的模型,则可能无法保留原始模型的属性。例如,BCM的预测方差很大程度上取决于数据拆分。

2)GP中近似的“经典”方法是近似核矩阵。此处对这些方法进行了很好的回顾:http : //www.jmlr.org/papers/volume6/quinonero-candela05a/quinonero-candela05a.pdf。实际上,我们通常可以将这些矩阵近似视为模型近似,并用贝叶斯委员会机器将它们混为一谈:它们是对模型的更改,很难理解这些更改何时可能是病理性的。这是一个超级评论:https : //papers.nips.cc/paper/6477-understanding-probabilistic-sparse-gaussian-process-approximations.pdf

我主张对大型GP进行近似的方法是避免近似核矩阵或模型,并使用变分推断近似后验分布。许多计算看起来像是“低秩”矩阵逼近,但是有一个非常理想的属性:您使用的计算越多(“秩”越多),逼近就越接近真实后验(如KL所度量)分歧。

这些文章是一个很好的起点:http : //proceedings.mlr.press/v5/titsias09a/titsias09a.pdf https://arxiv.org/pdf/1309.6835

我在这里针对相同的论点写了更长的文章:https : //www.prowler.io/blog/sparse-gps-approximate-the-posterior-not-the-model

实际上,在很多情况下,变分逼近效果很好。我已经在实际应用中广泛使用了它。最近,有一些优秀的理论来证明它为什么应该起作用(https://arxiv.org/abs/1903.03571)。

最后一个插件:gpflow(https://github.com/GPflow/GPflow)实现了GP中的变分推理。


1
仅作记录,如果有人遇到这个问题并且不知道,詹姆斯将与迈克·奥斯本(Mike Osborne),尼尔·劳伦斯(Neill Lawrence)等一起成为该领域的权威之一-他很
高兴
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.