Answers:
高斯过程模型通常适用于高维数据集(我已将其与微阵列数据等配合使用)。他们的关键是为超参数选择合适的值(以与正则化相似的方式有效地控制模型的复杂性)。
稀疏方法和伪输入方法更适合于具有大量样本(对于我的计算机而言,> 4000左右)而非大量特征的数据集。如果您有足够强大的计算机来执行协方差矩阵的Cholesky分解(n×n,其中n是样本数),那么您可能不需要这些方法。
如果您是MATLAB用户,那么我强烈推荐GPML工具箱以及Rasmussen和Williams的书作为开始的好地方。
但是,如果您对功能选择感兴趣,那么我会避免使用GP。使用GP进行特征选择的标准方法是使用自动相关性确定内核(例如GPML中的covSEard),然后通过调整内核参数以使边缘可能性最大化来实现特征选择。不幸的是,这很可能最终导致过度拟合边际可能性,并最终导致模型的性能(可能很多)比具有简单球形径向基函数(GPML中的covSEiso)协方差的模型差。
我目前的研究重点是目前对模型选择的过度拟合,我发现这对于GP中的证据最大化和内核模型中基于超级验证者的交叉验证优化同样是一个难题。看到这篇论文,还有一篇。
非线性模型的特征选择非常棘手。通常,通过坚持线性模型并使用L1正则化类型方法(套索/ LARS /弹性网等)来实现稀疏性或随机森林方法,通常会获得更好的性能。
您可以尝试使用专门设计用于处理高维数据的协方差函数。期待通过对添加剂协方差函数纸的例子。在我的数值实验中,它们在输入尺寸相当大的一些实际数据(约)。
但是,如果输入维度确实很大(大于 要么 )似乎任何内核方法都将失败,并且没有排除高斯过程回归的可能性。