Answers:
有多种方法可以将GP扩展到大型数据集,例如:
低秩方法:这些方法旨在创建协方差矩阵的低秩近似。最著名的也许是尼斯特罗姆方法,该方法将数据投影到点的子集上。在此基础上,开发了FITC和PITC,它们使用伪点而不是观察到的点。这些包括在例如GPy python库中。其他方法包括随机傅立叶特征。
H矩阵:这些矩阵使用协方差矩阵的分层结构,并对每个结构子矩阵应用低秩逼近。这在流行的库中不太常见。
Kronecker方法:这些方法使用协方差矩阵的Kronecker乘积,以加快计算的总瓶颈。
贝叶斯委员会机器:这涉及将数据拆分为子集,并使用GP对其进行建模。然后,您可以使用输出的最佳贝叶斯组合来组合预测。这是很容易实现的,而且很快,但是您担心的是您的内核有点中断-Mark Deisenroth的论文应该足够容易在此处遵循。
您问:
在𝑛是百万分之一的情况下,高斯过程回归仍然有效吗?
从标准意义上讲,不是构造和求逆大型矩阵。您有两种选择:1)选择其他模型或2)进行近似。
1)一些基于GP的模型可以缩放到非常大的数据集,例如上面答案中链接的贝叶斯委员会机器。但是,我发现这种方法并不令人满意:选择GP模型是有充分的理由的,如果我们要切换到可计算性更高的模型,则可能无法保留原始模型的属性。例如,BCM的预测方差很大程度上取决于数据拆分。
2)GP中近似的“经典”方法是近似核矩阵。此处对这些方法进行了很好的回顾:http : //www.jmlr.org/papers/volume6/quinonero-candela05a/quinonero-candela05a.pdf。实际上,我们通常可以将这些矩阵近似视为模型近似,并用贝叶斯委员会机器将它们混为一谈:它们是对模型的更改,很难理解这些更改何时可能是病理性的。这是一个超级评论:https : //papers.nips.cc/paper/6477-understanding-probabilistic-sparse-gaussian-process-approximations.pdf
我主张对大型GP进行近似的方法是避免近似核矩阵或模型,并使用变分推断近似后验分布。许多计算看起来像是“低秩”矩阵逼近,但是有一个非常理想的属性:您使用的计算越多(“秩”越多),逼近就越接近真实后验(如KL所度量)分歧。
这些文章是一个很好的起点:http : //proceedings.mlr.press/v5/titsias09a/titsias09a.pdf https://arxiv.org/pdf/1309.6835
我在这里针对相同的论点写了更长的文章:https : //www.prowler.io/blog/sparse-gps-approximate-the-posterior-not-the-model
实际上,在很多情况下,变分逼近效果很好。我已经在实际应用中广泛使用了它。最近,有一些优秀的理论来证明它为什么应该起作用(https://arxiv.org/abs/1903.03571)。
最后一个插件:gpflow(https://github.com/GPflow/GPflow)实现了GP中的变分推理。