高斯过程回归玩具问题


9

我试图通过高斯过程回归获得一些直觉,因此我尝试了一个简单的一维玩具问题。我拿了xi={1,2,3} 作为输入,并且 yi={1,4,9}作为回应。(“灵感来自”y=x2

对于回归,我使用了标准平方指数核函数:

k(xp,xq)=σf2exp(12l2|xpxq|2)

我认为存在标准偏差的噪音 σn,则协方差矩阵变为:

Kpq=k(xp,xq)+σn2δpq

超参数 (σn,l,σf)通过最大化数据的对数似然来估计。在某点做出预测x,我分别通过以下方法找到了均值和方差

μx=kT(K+σn2I)1y
σx2=k(x,x)kT(K+σn2I)1k

哪里 k 是之间的协方差的向量 x 和输入,以及 y 是输出的向量。

我的结果 1<x<3如下所示。蓝线是平均值,红线表示标准偏差间隔。

结果

我不确定这是否正确;我的输入(用“ X”标记)不在蓝线上。我看到的大多数示例均具有相交的输入。这是预期的一般功能吗?


1
如果我不得不猜测,在示例中您所看到的是没有残留错误。在那种情况下,线将穿过所有点。
家伙

@Guy完全正确。

Answers:


10

通过数据点的均值函数通常表示过度拟合。除非有足够的数据来证明更复杂的事物,否则通过使边缘可能性最大化来优化超参数将倾向于使用非常简单的模型。由于您只有三个数据点,它们或多或少地在一条线中且几乎没有噪音,所以找到的模型对我来说似乎很合理。从本质上讲,数据可以解释为具有中等噪声的线性基础函数,也可以解释为具有很少噪声的中度非线性基础函数。前者是这两种假设中的简单者,并且受到“奥卡姆剃刀”的青睐。


感谢您的输入。您能告诉我更多关于“过度拟合”的信息吗?它是正面/负面特征吗?
Comp_Warrior

过度拟合是消极的事情,它基本上意味着模型存储了数据中的随机变化,这往往会使泛化性能变差。理想情况下,您希望模型学习数据的基本形式,同时忽略污染数据的噪声。大多数优秀的机器学习教科书将在第一章中介绍。
迪克兰有袋博物馆,

只是出于兴趣,为什么要投票?
迪克兰有袋博物馆,

我没有对你投反对票;实际上我赞成!
Comp_Warrior

2
没问题,Comp_Warrior,我不认为是您,但是有人确实否决了我的回答,我很乐意就为什么给出一些反馈。我们都是容易犯错误的,如果我的回答有误,我很想纠正。
迪克兰有袋博物馆,2013年

7

您正在使用Kriging估计器,并添加了一个噪声项(在高斯过程文献中称为金块效应)。如果将噪声项设置为零,即

σn2δpq=0

那么您的预测将作为插值并通过样本数据点。


3

在我看来,这很不错,在拉斯穆森(Rasmussen)的GP书中,它肯定显示了均值函数未通过每个数据点的示例。请注意,回归线是对基础函数的估计,我们假设观测值是基础函数值加上一些噪声。如果回归线基于所有这三个点,则实际上就是说观测值中没有噪音。

您可以通过设置 σn=0,并仅优化其他超参数。

我也怀疑超参数 l 被设置为一个较大的值,提供了一个非常浅的功能。

你可以尝试持有 l固定为各种较小的值,然后查看如何改变曲线。也许如果你强迫l 稍微小一点,回归线将穿过所有数据点。

正如Dikran Marsupial所指出的那样,这是高斯过程的一个内置功能,边际似然性会惩罚过于具体的模型,而倾向于能够解释许多数据集的模型。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.