我有点困惑。为什么高斯过程称为非参数模型?
他们确实假设函数值或其子集具有高斯先验,均值0,协方差函数作为内核函数给出。这些内核函数本身具有一些参数(即,超参数)。
那么为什么将它们称为非参数模型呢?
我有点困惑。为什么高斯过程称为非参数模型?
他们确实假设函数值或其子集具有高斯先验,均值0,协方差函数作为内核函数给出。这些内核函数本身具有一些参数(即,超参数)。
那么为什么将它们称为非参数模型呢?
Answers:
首先,我并不总是很清楚“非参数”或“半参数”等的含义。在评论中,似乎胡佛在意一些正式的定义(例如选择模型来自某个家庭其中是无穷大),但我将非常非正式。有人可能会说,非参数方法是您使用的有效参数数量随数据而增加的一种方法。我认为videolectures.net上有一个视频,(我认为)彼得·奥班兹(Peter Orbanz)就如何定义“非参数”给出了四到五个不同的观点。
因为我想我知道您要记住的是什么种类,为简单起见,我假设您正在谈论使用高斯过程进行回归的一种典型方式:我们有训练数据,我们对建模条件均值感兴趣。我们写 ,也许我们如此大胆地假设是iid并且是正态分布的,。将是一维的,但是所有东西都会延续到更高的维。
如果我们的可以连续取值,则可以被视为(无数)无穷维的参数。因此,从某种意义上说,我们正在估计一个无穷大的参数,那么我们的问题就是一个非参数问题。确实,贝叶斯方法具有一些随处可见的参数。但是实际上,它被称为非参数的,因为我们正在估计无限大的东西。我们使用的GP先验函数将质量分配给每个连续函数的每个邻域,因此它们可以很好地任意估计任何连续函数。
协方差函数中的事物所起的作用类似于通常的频度估算器中的平滑参数-为了使该问题不是绝对绝望,我们必须假设我们期望看到某些结构来展示。贝叶斯通过在高斯过程形式的连续函数空间上使用先验来实现这一点。从贝叶斯的角度来看,我们假设是从具有此类协方差函数的GP中提取的,从而对的信念进行编码。先验因过于复杂而有效地惩罚了估计。
编辑计算问题
这些东西中的大多数(全部?)都在Rasmussen和Williams的《高斯过程》一书中。
计算问题对于GP来说是棘手的。如果我们精打细算,我们将需要大小的内存来保存协方差矩阵,并进行运算来求逆。我们可以做一些事情来使事情变得更可行。一种选择是注意到我们真正需要的人是,即,其中是协方差矩阵。共轭梯度法可以在计算中完全解决这个问题,但是如果我们对近似解感到满意,我们可以在步骤后终止共轭梯度算法,并在计算。我们也不必一次存储整个矩阵
因此,我们已经从移到,但这仍然是二次方,因此我们可能会不高兴。第二个最好的方法是处理数据的子集,例如大小为的数据,其中反转和存储矩阵并不那么糟糕。当然,我们不想只丢弃剩余的数据。回归方法的子集指出,我们可以将GP的后均值作为我们的数据在由协方差函数确定的数据相关的基础函数上的回归;因此,我们将其中除的所有数据都丢弃了,这取决于计算。
存在其他两个潜在的选择。我们可以构造一个低秩的近似值,并设置,其中为且秩为;原来反转在这种情况下可以通过,而不是反转来完成。另一个选择是选择要稀疏的协方差函数并使用共轭梯度法-如果协方差矩阵非常稀疏,则可以大大加快计算速度。
一般而言,贝叶斯非参数中的“非参数”是指具有无限数量(潜在)参数的模型。videolectures.net上有很多关于该主题的非常不错的教程和讲座(像这样),对此类模型进行了很好的概述。
具体而言,因为GP代表函数(即无限维矢量),所以认为高斯过程(GP)是非参数的。随着数据点数量的增加((x,f(x))对),模型“参数”的数量也会增加(限制函数的形状)。与非参数模型不同,在非参数模型中,参数的数目相对于数据的大小保持固定,而在非参数模型中,参数的数目随数据点的数目而增长。