统计和大数据 gaussian-process

2

背景与问题我正在使用高斯过程（GP）进行回归和随后的贝叶斯优化（BO）。为了进行回归，我使用了针对MATLAB 的gpml包，并进行了一些自定义修改，但是问题很普遍。众所周知的事实是，当两个训练输入在输入空间中太近时，协方差矩阵可能变为非正定的（此站点上有几个问题）。结果，由于数值误差，各种GP计算所需的协方差矩阵的Cholesky分解可能会失败。在使用我使用的目标函数执行BO时，在某些情况下这发生在我身上，我想对其进行修复。拟议的解决方案 AFAIK，减轻不适的标准解决方案是在协方差矩阵的对角线上添加一个脊或块。对于GP回归，这等于增加（或增加，如果已经存在）观察噪声。到现在为止还挺好。我修改了gpml的精确推论代码，以便每当Cholesky分解失败时，我都会尝试将协方差矩阵固定为Frobenius范数中最接近的对称正定（SPD）矩阵，这是受约翰d'Errico的MATLAB代码启发的。这样做的理由是要尽量减少对原始矩阵的干预。这个变通办法可以完成工作，但是我注意到对于某些功能，BO的性能大大降低了-可能是每当算法需要放大某些区域时（例如，因为算法越来越接近最小值，或者因为长度缩放）问题变得越来越小）。这种行为是有道理的，因为每当两个输入点距离太近时，我都会有效地增加噪声，但这当然不是理想的选择。或者，我可以删除有问题的点，但是，有时候，我需要输入点很接近。题我认为GP协方差矩阵的Cholesky因式分解的数值问题不是一个新问题，但令我惊讶的是，除了增加噪声或消除彼此之间太近的点外，到目前为止，我找不到许多解决方案。另一方面，我的某些功能确实表现得很差，所以也许我的情况不是那么典型。有什么建议/参考可以在这里有用吗？

12 regression covariance-matrix gaussian-process bayesian-optimization

2

高斯过程的导数

我相信高斯过程（GP）的导数是另一个GP，因此我想知道GP的导数的预测方程式是否存在闭式方程式？特别是，我正在使用平方指数（也称为高斯）协方差核，想了解有关对高斯过程的导数进行预测的信息。

12 stochastic-processes gaussian-process derivative

3

高斯过程模型的主要优点

高斯过程已被广泛使用，尤其是在仿真中。已知计算需求很高（）。0(n3)0(n3)0(n^3) 是什么使它们受欢迎？它们的主要优势和隐藏优势是什么？为什么使用它们代替参数模型（按参数模型，我指的是典型的线性回归，其中可以使用不同的参数形式来描述输入与输出趋势；例如qaudratic）？我真的很感谢一个技术性的答案，它解释了使高斯过程独特且有利的内在属性。

11 gaussian-process

2

高斯过程中的观测合并

我正在使用高斯过程（GP）进行回归。在我的问题中，两个或多个数据点相对于长度彼此接近是很常见的问题的规模。此外，观察结果可能会非常嘈杂。为了加快计算速度并提高测量精度，只要我关心更大范围的预测，合并/积分彼此接近的点的群集就显得很自然。x⃗ (1),x⃗ (2),…x→(1),x→(2),…\vec{x}^{(1)},\vec{x}^{(2)},\ldots 我想知道什么是快速但半原则的方法。如果两个数据点完全重叠，则，并且观察噪声（即似然性）是高斯分布，可能是异方差但已知，处理的自然方式似乎是将它们合并到一个数据点中：x⃗ (1)=x⃗ (2)x→(1)=x→(2)\vec{x}^{(1)} = \vec{x}^{(2)} x¯⃗ ≡x⃗ (k)x¯→≡x→(k)\vec{\bar{x}} \equiv \vec{x}^{(k)}，其中。k=1,2k=1,2k=1,2 观测值是观测值平均值，以其相对精度加权：。y¯y¯\bar{y}y(1),y(2)y(1),y(2)y^{(1)}, y^{(2)}y¯=σ2y(x⃗ (2))σ2y(x⃗ (1))+σ2y(x⃗ (2))y(1)+σ2y(x⃗ (1))σ2y(x⃗ (1))+σ2y(x⃗ (2))y(2)y¯=σy2(x→(2))σy2(x→(1))+σy2(x→(2))y(1)+σy2(x→(1))σy2(x→(1))+σy2(x→(2))y(2)\bar{y} = \frac{\sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(1)} + \frac{\sigma_y^2(\vec{x}^{(1)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(2)} 与观察相关的噪声等于：。σ2y(x¯)=σ2y(x⃗ (1))σ2y(x⃗ (2))σ2y(x⃗ (1))+σ2y(x⃗ (2))σy2(x¯)=σy2(x→(1))σy2(x→(2))σy2(x→(1))+σy2(x→(2))\sigma_y^2(\bar{x}) = \frac{\sigma_y^2(\vec{x}^{(1)}) \sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} 但是，如何合并两个相近但不重叠的点呢？我认为应该仍然是两个位置的加权平均值，再次使用相对可靠性。理由是质量中心论证（即，将非常精确的观察视为一堆不太精确的观察）。x¯⃗ x¯→\vec{\bar{x}} 对于与上述公式相同。y¯y¯\bar{y} 对于与观测相关的噪声，我想知道是否除了上面的公式之外，还应该在噪声中添加一个校正项，因为我正在移动数据点。本质上，我会得到与和有关的不确定性增加（分别是信号方差和协方差函数的长度尺度）。我不确定这个术语的形式，但是在给定协方差函数的情况下，我对如何计算它有一些初步的想法。σ2fσf2\sigma_f^2ℓ2ℓ2\ell^2 在继续之前，我想知道那里是否已经有东西。如果这似乎是明智的处理方法，或者有更好的快速方法。我在文献中能找到的最接近的东西是这篇论文：E. …

11 regression machine-learning gaussian-process

3

使用布朗桥模拟布朗旅行？

我想以模拟布朗偏移处理（即空调总是正的一个布朗运动时到在）。由于Brownian偏移过程是一个条件为始终为正的Brownian桥，因此我希望使用Brownian桥来模拟Brownian偏移的运动。0 t = 10<t<10<t<10 \lt t \lt 1000t=1t=1t=1 在R中，我正在使用“ e1017”包来模拟布朗桥过程。如何使用该布朗桥过程创建布朗漂移？

11 r gaussian-process brownian

2

期望与平均值相同吗？

我正在大学里做ML，而教授在试图向我们解释有关高斯过程的某些东西时，提到了期望（E）一词。但是根据他的解释，我知道E与平均值μ相同。我明白吗？如果相同，那么您知道为什么同时使用两个符号吗？我也看到E可以像E（）一样用作函数，但是我对μ没有看到。X2x2x^2 有人可以帮助我更好地了解两者之间的区别吗？

11 machine-learning gaussian-process linear-algebra

1

您如何检测高斯过程是否过度拟合？

我正在通过最大化数据的边际似然性（而不是交叉验证）来训练带有许多参数的ARD内核的高斯过程。我怀疑这太合身了。我如何在贝叶斯背景下检验这种怀疑？

11 machine-learning cross-validation gaussian-process

2

增量高斯过程回归

我想使用在数据点上通过数据流一个一到达的滑动窗口来实现增量式高斯过程回归。让表示输入空间的维数。因此，每个数据点x i具有d个元素。dddX一世xix_iddd 令为滑动窗口的大小。ñnn 为了做出预测，我需要计算语法矩阵的逆，其中K i j = k （x i，x j），k是平方指数核。ķKKķ我Ĵ= k （x一世，XĴ）Kij=k(xi,xj)K_{ij} = k(x_i, x_j) 为了避免K随着每个新数据点变大，我认为可以在添加新点之前删除最旧的数据点，这样可以防止gram增长。例如，让其中，Σ是权重的协方差和φ是由平方指数内核隐含的隐式映射函数。ķ= ϕ （X）ŤΣ φ （X）K=ϕ(X)TΣϕ(X)K = \phi(X)^{T}\Sigma\phi(X)ΣΣ\Sigmaϕϕ\phi 现在让 ]和X n e w = [ x t − n + 2 | 。。。| X Ť | X 吨+ 1 ]，其中X “s的ð由1列的矩阵。X= [ xt − …

11 regression covariance gaussian-process linear-algebra online

1

高斯过程（回归）是否具有通用逼近性质？

是否可以通过高斯过程（回归）对[a，b]上的任何连续函数（其中a和b是实数）进行近似或任意接近（在一定范数下）该函数？

10 gaussian-process approximation

2

与克里金法和高斯过程的差异有关的混乱

我很难理解克里金法和高斯法之间的区别。我的意思是Wiki说它们是相同的，但它们的预测公式是如此不同。我有点困惑为什么将它们称为相似。澄清吗？

10 gaussian-process

2

当近似函数随时间变化时，如何执行高斯过程回归？

当我尝试近似随时间变化的函数时，执行高斯过程回归的好的策略是什么？我想到的幼稚方法是仅使用N个最新数据点执行回归。什么是更好的策略？

10 regression online gaussian-process

3

大型数据集的高斯过程回归

我一直在从在线视频和讲义中学习有关高斯过程回归的知识，我的理解是，如果我们有一个包含个点的数据集，那么我们就假设数据是从维多元高斯模型中采样的。所以我的问题是在是百万分之一的情况下，高斯过程回归仍然有效吗？内核矩阵会不会很大，从而使过程完全无效？如果是这样，是否有适当的技术来处理此问题，例如多次重复从数据集中采样？处理这类案件有哪些好的方法？ ññnññnññn

10 machine-learning probability inference gaussian-process multivariate-regression

2

高维数据集的高斯过程回归

只是想看看是否有人对高维数据集应用高斯过程回归（GPR）有任何经验。我正在研究各种稀疏GPR方法（例如，稀疏伪输入GPR），以了解在特征选择是参数选择过程一部分的情况下，高维数据集可以使用的方法。任何有关论文/代码/或各种尝试方法的建议都值得赞赏。谢谢。

10 machine-learning predictive-models large-data gaussian-process

1

对高斯过程回归方程推导的怀疑

我正在阅读本文的预印本，在他们推导高斯过程回归方程式时遇到了困难。他们使用Rasmussen＆Williams的设置和符号。因此，假定具有方差加性，零均值，平稳和正态分布噪声：σ2Ñ ø 我小号ËσñØ一世sË2\sigma^2_{noise} ÿ= f（x）+ ϵ ，ε 〜Ñ（0 ，σ2Ñ ø 我小号Ë）ÿ=F（X）+ϵ，ϵ〜ñ（0，σñØ一世sË2）y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise}) 对于假定GP均值为零，这意味着，\ mathbf {f} = \ {f（\ mathbf {x_1}），\ dots，f （\ mathbf {x_d}）\}是具有均值0和协方差矩阵的高斯向量F（x）F（X）f(\mathbf{x})∀ d ∈ ñ∀ d∈ñ\forall \ d\in NF= { f（x1个),…,f(xd)}f={f(x1),…,f(xd)}\mathbf{f}=\{f(\mathbf{x_1}),\dots,f(\mathbf{x_d})\} Σd=⎛⎝⎜⎜k(x1,x1)k(xd,x1)⋱k(x1,xd)k(xd,xd)⎞⎠⎟⎟Σd=(k(x1,x1)k(x1,xd)⋱k(xd,x1)k(xd,xd))\Sigma_d=\pmatrix{k(\mathbf{x_1},\mathbf{x_1})& & k(\mathbf{x_1},\mathbf{x_d}) \\ & \ddots & \\k(\mathbf{x_d},\mathbf{x_1})& & k(\mathbf{x_d},\mathbf{x_d}) } 从现在开始，我们假设超参数是已知的。那么，论文的等式（4）是显而易见的： p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(\mathbf{f},\mathbf{f^*})=N\left(0,\pmatrix { K_{\mathbf{f},\mathbf{f}} …

9 regression bayesian gaussian-process

3

高斯过程回归玩具问题

我试图通过高斯过程回归获得一些直觉，因此我尝试了一个简单的一维玩具问题。我拿了X一世= { 1 ，2 ，3 }xi={1,2,3}x_i=\{1,2,3\} 作为输入，并且 ÿ一世= { 1 ，4 ，9 }yi={1,4,9}y_i=\{1,4,9\}作为回应。（“灵感来自”ÿ=X2y=x2y=x^2）对于回归，我使用了标准平方指数核函数： k （Xp，Xq）=σ2F经验值（ -1个2升2|Xp-Xq|2）k(xp,xq)=σf2exp⁡(−12l2|xp−xq|2)k(x_p,x_q)=\sigma_f^2 \exp \left( - \frac{1}{2l^2} \left|x_p-x_q\right|^2 \right) 我认为存在标准偏差的噪音 σñσn\sigma_n，则协方差矩阵变为： ķp q= k （Xp，Xq）+σ2ñδp qKpq=k(xp,xq)+σn2δpqK_{pq} = k(x_p,x_q) + \sigma_n^2 \delta_{pq} 超参数（σñ，升，σF）(σn,l,σf)(\sigma_n,l,\sigma_f)通过最大化数据的对数似然来估计。在某点做出预测X⋆x⋆x_\star，我分别通过以下方法找到了均值和方差 μx⋆=kT⋆(K+σ2nI)−1yμx⋆=k⋆T(K+σn2I)−1y\mu_{x_\star} = k_\star^T (\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} y σ2x⋆=k(x⋆,x⋆)−kT⋆(K+σ2nI)−1k⋆σx⋆2=k(x⋆,x⋆)−k⋆T(K+σn2I)−1k⋆\sigma_{x_\star}^2 = k(x_\star,x_\star)-k_\star^T(\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} k_\star 哪里 k⋆k⋆k_\star 是之间的协方差的向量 x⋆x⋆x_\star …

9 regression gaussian-process

Questions tagged «gaussian-process»