高维数据集的高斯过程回归


10

只是想看看是否有人对高维数据集应用高斯过程回归(GPR)有任何经验。我正在研究各种稀疏GPR方法(例如,稀疏伪输入GPR),以了解在特征选择是参数选择过程一部分的情况下,高维数据集可以使用的方法。

任何有关论文/代码/或各种尝试方法的建议都值得赞赏。

谢谢。


2
如前所述,这个问题很模糊。自成体系,具体且动机良好的问题在这里往往会得到最多的关注和最佳答案。(例如,如果您要解决一个特定的问题,请考虑提供足够的详细信息,以使读者可以理解您要做什么。)
红衣主教

Answers:


13

高斯过程模型通常适用于高维数据集(我已将其与微阵列数据等配合使用)。他们的关键是为超参数选择合适的值(以与正则化相似的方式有效地控制模型的复杂性)。

稀疏方法和伪输入方法更适合于具有大量样本(对于我的计算机而言,> 4000左右)而非大量特征的数据集。如果您有足够强大的计算机来执行协方差矩阵的Cholesky分解(n×n,其中n是样本数),那么您可能不需要这些方法。

如果您是MATLAB用户,那么我强烈推荐GPML工具箱以及Rasmussen和Williams的书作为开始的好地方。

但是,如果您对功能选择感兴趣,那么我会避免使用GP。使用GP进行特征选择的标准方法是使用自动相关性确定内核(例如GPML中的covSEard),然后通过调整内核参数以使边缘可能性最大化来实现特征选择。不幸的是,这很可能最终导致过度拟合边际可能性,并最终导致模型的性能(可能很多)比具有简单球形径向基函数(GPML中的covSEiso)协方差的模型差。

我目前的研究重点是目前对模型选择的过度拟合,我发现这对于GP中的证据最大化和内核模型中基于超级验证者的交叉验证优化同样是一个难题。看到这篇论文,还有一篇

非线性模型的特征选择非常棘手。通常,通过坚持线性模型并使用L1正则化类型方法(套索/ LARS /弹性网等)来实现稀疏性或随机森林方法,通常会获得更好的性能。


感谢Dikran。我尝试在R中使用glmnet查找正则化线性模型。不幸的是,我的预测最终都是一样的(我认为我的训练集的平均值)。线性模型似乎很难提取我数据中的信号。这就是为什么我一直在寻找可以处理许多特征/潜在特征相互作用的非线性模型的原因。我很确定那是很多问题。在这方面有什么建议吗?我没有P >> N问题。使用150个功能,1000个示例。
托马斯

嘿Dikran。这是一个非常模糊的问题,对此我感到抱歉。我在董事会上提出了一个更具体的问题。再次感谢您的帮助。stats.stackexchange.com/questions/30411/...
托马斯

没问题,经常找出问题所在比回答问题更加困难!我会注意其他问题。
迪克兰有袋博物馆,2012年

感谢您的回答。在具有高维特征但数据集不是很大的情况下(n〜10k d〜1k),是否可以使用ARD来加快计算速度?我正在使用GPML工具箱。我们是否可以自动“稀疏”协方差矩阵以关注相关特征?
2012年

1
r.csail.mit.edu/papers/v8/cawley07a.html ”链接不起作用...是这个吗?jmlr.org/papers/v8/cawley07a.html。也许添加完整的引用而不是仅仅添加链接将是有益的:-)
好奇的

4

您可以尝试使用专门设计用于处理高维数据的协方差函数。期待通过对添加剂协方差函数纸的例子。在我的数值实验中,它们在输入尺寸相当大的一些实际数据(约30)。

但是,如果输入维度确实很大(大于 100 要么 200)似乎任何内核方法都将失败,并且没有排除高斯过程回归的可能性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.