了解用于线性回归的高斯基函数参数


12

我想将高斯基函数应用到线性回归实现中。不幸的是,我很难理解基本函数中的几个参数。特别是和。μσ

我的数据集是10,000 x 31矩阵。10,000个样本和31个功能。我已经读过“每个基函数将输入向量x转换为标量值”。所以我假设x是1个样本,所以是1 x 31向量。从这里我很困惑。参数到底是什么?我已经读到,这支配着基本函数的位置。那这不是什么意思吗?我也被下标j(和)所,这让我想到了第j行。但这似乎没有道理。是载体?现在为μjμϕμjσ“控制空间规模”。那到底是什么 我已经看到一些实现对此参数尝试使用.1,.5、2.5之类的实现。这些值如何计算?我一直在进行研究并寻找可以学习的例子,但到目前为止我还没有找到任何例子。任何帮助或指示将不胜感激!谢谢。

Answers:


11

当您感到困惑时,让我先说明问题,然后逐一回答您的问题。您的样本大小为10,000,每个样本由特征向量。如果要使用高斯径向基函数执行回归,则寻找形式为其中是您的基本函数。具体来说,您需要找到权重以便对于给定的参数和可以将与相应预测 =之间的误差最小化xR31

f(x)=jwjgj(x;μj,σj),j=1..m
gimwjμjσjyy^f(x^) -通常,您会最小化最小二乘误差。

Mu下标j参数到底是什么?

您需要找到基函数。(您仍然需要确定数字)每个基函数将具有一个和一个(也是未知的)。下标范围是到。mgjmμjσjj1m

是载体?μj

是的,这是。换句话说,它指向特征空间中的某个位置,并且必须为基函数中的每个确定。R31μm

我已经读到,这支配着基本函数的位置。那这不是什么意思吗?

第基函数以为中心。您将需要确定这些位置在哪里。因此,不,它不一定是任何东西的均值(但是请进一步了解确定它的方法)jthμj

现在为“治理空间尺度”的西格玛。那到底是什么

σ如果我们转向基函数本身,则更容易理解。

它有助于在较低的维数中说高斯径向基函数,例如或。在,高斯径向基函数只是众所周知的钟形曲线。铃当然可以是窄的或宽的。宽度由确定 -较大越窄的钟形。换句话说,缩放钟形的宽度。因此,对于 = 1,我们没有缩放比例。对于较大的我们有足够的缩放比例。R1R2R1σσσσσ

您可能会问这是什么目的。如果您认为铃铛覆盖了空间的某些部分(一条线)–狭窄的铃铛将仅覆盖该行的一小部分*。靠近钟形中心的点将具有较大的值。远离中心的点的值较小。缩放具有将点推到离中心更远的效果-因为钟形变窄点将位于离中心更远的位置-减小了的值R1xgj(x)gj(x)gj(x)

每个基函数将输入向量x转换为标量值

是的,您正在某个点中评估基函数。xR31

exp(xμj222σj2)

结果得到标量。标量结果取决于点与中心的距离,该距离由和标量。xμjxμjσj

我已经看到一些实现对此参数尝试使用.1,.5、2.5之类的实现。这些值如何计算?

当然,这是使用高斯径向基函数的有趣且困难的方面之一。如果您在网上搜索,则会发现许多有关如何确定这些参数的建议。我将以非常简单的方式概述基于聚类的一种可能性。您可以在线找到此建议和其他一些建议。

首先对10000个样本进行聚类(首先可以使用PCA减小维数,然后进行k均值聚类)。您可以让为找到的簇数(通常使用交叉验证来确定最佳)。现在,为每个群集创建一个径向基函数。对于每个径向基函数,令为的中心(例如均值,质心等)。让反映群集的宽度(例如,半径...)现在继续执行回归(这个简单的描述只是一个概述-每个步骤都需要大量工作!)mmgjμjσj

*当然,钟形曲线的定义是-到因此在线上的任何地方都将具有值。但是,远离中心的值可以忽略不计


好答案!但是,在搜索,我们是否不能完成支持向量机回归(使用高斯核)?μ
O_Devinyak

@O_Devinyak-许多基础扩展方法将需要某种参数估计。查找方法有很多,因此我认为这不一定意味着我们正在将问题减少到SVR。老实说,我不是SVR的专家,但是最小化的损失函数肯定是不同的,并且我敢肯定,许多功能都会被忽略-这就是支持向量的方法。对于基函数,我们将所有函数用于评估,但幸运的是,紧凑的支持意味着许多基函数返回的值可忽略或为零。无论如何,这将在这个论坛上提出一个好的问题μ
martino 2014年

为什么我们需要一个标度而不是一个协方差矩阵,该矩阵会使基函数看起来像多元高斯的指数部分?σj
stackunderflow

1

让我尝试给出简单的解释。在这种表示法中,可以是行号,但也可以是特征号。如果我们写则表示特征编号,为列向量,为标量,为列-向量。如果我们写那么表示行号,是标量,是列向量,是行向量。其中表示行,表示列的表示法更常见,因此让我们使用第一种变体。jy=β0+j=1:31βjϕj(x)jyβjϕj(x)yj=βϕj(x)jyjβϕj(x)ij

将高函数引入线性回归后,(标量)现在不取决于特征(矢量)的数值,而是取决于与所有其他点的中心之间的距离。在这种方式并不取决于是否的个特征值个观察是高还是很小,但要看是否个特征值与平均值接近或远为 -feature。由于无法调整,因此它不是参数。它只是数据集的一个属性。参数yixixiμiyijijjμijμjσ2是一个标量值,它控制平滑度并可以进行调整。如果它很小,则距离的微小变化将产生较大的影响(请记住陡峭的高斯:已经距中心很小距离的所有点的值都很小)。如果它很大,则距离的小变化将产生很小的影响(记住平坦的高斯:随着距中心距离的增加,的减小很慢)。应该寻找的最佳值(通常是通过交叉验证找到的)。yyσ2


0

多元设置中的高斯基函数具有多元中心。假设您的,那么也是如此。高斯必须是多元的,即其中是协方差矩阵 索引不是向量的组成部分,它只是第个向量。类似地,是第个矩阵。xR31μjR31e(xμj)Σj1(xμj)ΣjR31×31jjΣjj

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.