为什么高斯过程模型称为非参数模型?


26

我有点困惑。为什么高斯过程称为非参数模型?

他们确实假设函数值或其子集具有高斯先验,均值0,协方差函数作为内核函数给出。这些内核函数本身具有一些参数(即,超参数)。

那么为什么将它们称为非参数模型呢?


1
我知道“高斯过程”的几个定义,因此您的问题真正要问的还不清楚。但是,当您考虑如何进行澄清时,请问自己:您究竟将如何考虑高斯过程的参数?如果您不能使用有限数量的实参自然地执行此操作,则应将其视为非参数。
ub

@whuber。AFAIK,高斯过程的主要参数是均值和协方差函数。但是随着我们不断增加数据点,它们也在不断增加。因此,它一直在增加。这就是为什么高斯过程被称为非参数过程吗?
user34790

@whuber如果我有数百万个训练数据点,则我的GP f〜N(m,k)将是一百万维多元高斯分布。那不是太大吗?我的意思是,随着新训练数据的到来,它变得越来越大。会不会引起计算问题?
user34790

1
“参数”与“非参数”是不适用于特定过程的术语:它们适用于可能适合数据的整个过程。尽管我仍然不知道您打算使用哪个家庭,但这听起来像是尽管在任何情况下参数的数量都是有限的,但是在家庭成员中可能出现的参数数量没有限制:ergo,问题是非参数的。
ub

Answers:


20

首先,我并不总是很清楚“非参数”或“半参数”等的含义。在评论中,似乎胡佛在意一些正式的定义(例如选择模型来自某个家庭其中是无穷大),但我将非常非正式。有人可能会说,非参数方法是您使用的有效参数数量随数据而增加的一种方法。我认为videolectures.net上有一个视频,(我认为)彼得·奥班兹(Peter Orbanz)就如何定义“非参数”给出了四到五个不同的观点。Mθ{Mθ:θΘ}Θ

因为我想我知道您要记住的是什么种类,为简单起见,我假设您正在谈论使用高斯过程进行回归的一种典型方式:我们有训练数据,我们对建模条件均值感兴趣。我们写 ,也许我们如此大胆地假设是iid并且是正态分布的,。将是一维的,但是所有东西都会延续到更高的维。(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)

Yi=f(Xi)+ϵi
ϵiϵiN(0,σ2)Xi

如果我们的可以连续取值,则可以被视为(无数)无穷维的参数。因此,从某种意义上说,我们正在估计一个无穷大的参数,那么我们的问题就是一个非参数问题。确实,贝叶斯方法具有一些随处可见的参数。但是实际上,它被称为非参数的,因为我们正在估计无限大的东西。我们使用的GP先验函数将质量分配给每个连续函数的每个邻域,因此它们可以很好地任意估计任何连续函数。Xif()

协方差函数中的事物所起的作用类似于通常的频度估算器中的平滑参数-为了使该问题不是绝对绝望,我们必须假设我们期望看到某些结构来展示。贝叶斯通过在高斯过程形式的连续函数空间上使用先验来实现这一点。从贝叶斯的角度来看,我们假设是从具有此类协方差函数的GP中提取的,从而对的信念进行编码。先验因过于复杂而有效地惩罚了估计。ffff

编辑计算问题

这些东西中的大多数(全部?)都在Rasmussen和Williams的《高斯过程》一书中。

计算问题对于GP来说是棘手的。如果我们精打细算,我们将需要大小的内存来保存协方差矩阵,并进行运算来求逆。我们可以做一些事情来使事情变得更可行。一种选择是注意到我们真正需要的人是,即,其中是协方差矩阵。共轭梯度法可以在计算中完全解决这个问题,但是如果我们对近似解感到满意,我们可以在步骤后终止共轭梯度算法,并在O(N2)O(N3)v(K+σ2I)v=YKO(N3)kO(kN2)计算。我们也不必一次存储整个矩阵K

因此,我们已经从移到,但这仍然是二次方,因此我们可能会不高兴。第二个最好的方法是处理数据的子集,例如大小为的数据,其中反转和存储矩阵并不那么糟糕。当然,我们不想只丢弃剩余的数据。回归方法的子集指出,我们可以将GP的后均值作为我们的数据在由协方差函数确定的数据相关的基础函数上的回归;因此,我们将其中除的所有数据都丢弃了,这取决于计算。O(N3)O(kN2)Nmm×mYNmO(m2N)

存在其他两个潜在的选择。我们可以构造一个低秩的近似值,并设置,其中为且秩为;原来反转在这种情况下可以通过,而不是反转来完成。另一个选择是选择要稀疏的协方差函数并使用共轭梯度法-如果协方差矩阵非常稀疏,则可以大大加快计算速度。KK=QQTQn×qqK+σ2IQTQ+σ2I


8

一般而言,贝叶斯非参数中的“非参数”是指具有无限数量(潜在)参数的模型。videolectures.net上有很多关于该主题的非常不错的教程和讲座(像这样),对此类模型进行了很好的概述。

具体而言,因为GP代表函数(即无限维矢量),所以认为高斯过程(GP)是非参数的。随着数据点数量的增加((x,f(x))对),模型“参数”的数量也会增加(限制函数的形状)。与非参数模型不同,在非参数模型中,参数的数目相对于数据的大小保持固定,而在非参数模型中,参数的数目随数据点的数目而增长。


这正是我所假设的。所以我的猜测是正确的。但是我的问题是我是否有百万分(观察到的数据)。那么我的f也将是一百万维。所以我不会有计算问题。此外,我的协方差矩阵的大小也将为100万x 100万。那么在这种情况下我该怎么办?
user34790

@ user34790是的,您将遇到计算问题。对于GP而言,计算挑战非常重要。拉斯穆森(Rasmussen)和威廉姆斯(Williams)都有一本关于GP的书,其中有整整一章专门讨论这一问题,如果您用心搜索Google,可以免费在线找到它。有关一些最低限度的细节,请参见我更新的帖子。
家伙

1

您称为超参数的参数不是出于物理目的的参数,因此也不是名称。它们仅用于参数化内核功能。举一个例子,在高斯内核中:

K(xi,xj)=h2exp((xixj)2λ2)

该和是超参数,但他们不涉及量,如温度,污染浓度等,你可能会在一个真正的参数模型遇到的问题。hλ

本讲座中也解决了该问题,这可能有助于更好地理解。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.