出于回归的目的,减少预测变量的维数有什么优势?


11

与传统的回归技术(不进行任何降维处理)相比,降维回归(DRR)或监督降维(SDR)技术有哪些应用或优势?这些技术类别可为回归问题找到特征集的低维表示。此类技术的示例包括切片逆回归,主Hessian方向,切片平均方差估计,内核切片逆回归,主成分回归等。

  1. 就交叉验证的RMSE而言,如果在没有任何降维的情况下算法在回归任务上表现更好,那么降维用于回归的真正用途是什么?我不了解这些技术。

  2. 这些技术是否有机会用于减少回归所需的时间和空间?如果这是主要优点,那么使用此技术后,一些有关降低高维数据集复杂性的资源将很有帮助。我以运行DRR或SDR技术本身需要一些时间和空间这一事实来对此进行辩论。低调数据集上的此SDR / DRR +回归是否比高调数据集上的仅回归快?

  3. 是否仅出于抽象兴趣对这种设置进行了研究,并且没有很好的实际应用?

顺带一提:有时会假设特征和响应的联合分布在流形上。在这种情况下,从观察到的样本中学习流形对于解决回归问题是有意义的。ÿXY


1
您谈论多方面的学习,因此以下博客文章可能会有所帮助: normaldeviate.wordpress.com/2012/09/08/hunting-for-manifolds
kjetil b halvorsen 2012年

Answers:


5

根据流形假设,假定数据位于低维流形上,这意味着残差是噪声,因此,如果正确进行降维,则应通过对信号建模而不是对噪声进行建模来提高性能。这不仅仅是空间和复杂性的问题。


但是我看不到像SIR这样的技术在稳健的基础上降低了尺寸后表现更好。如果是错误的,或者如果您知道可以更好地找到此信号的SDR / DDR技术,请纠正我-在回归设置中,让我知道它是什么技术(名称)。
灵车

当然,这取决于回归算法和数据的固有维数。我不能特别说SIR,但是这是一篇论文,比较了低维MNIST数据集上的各种回归算法。也许您可以共享一些麻烦的数据,以便人们可以加以破解。
Emre 2014年

什么是“流形假设”?
变形虫说恢复莫妮卡2014年


我想知道这些东西是否类似于神经网络和非线性多维标度,因为它“听起来像”在任何地方都应该很棒,但实际上在
少数

6

回归中降维的目的是正则化。

您列出的大多数技术不是很为人所知。除了主成分回归(PCR)之外,我还没有听说过它们。因此,我将回答有关PCR的问题,但希望其他技术也一样。

这里的两个关键词是过度拟合正则化。经过长时间的讨论和讨论,我将向您介绍 《统计学习的要素》,但非常简要地讲,如果您有很多预测变量()而没有足够的样本(),那么标准回归将过度拟合数据,您将构建一个模型,该模型似乎在训练集上表现良好,但实际上在任何测试集上表现都非常差。ñpn

在一个极端的例子中,当预测变量的数量超过样本数量(人们称其为问题)时,实际上您可以完美地拟合任何响应变量,从而实现了性能。这显然是胡说八道。y 100 p>ny100%

要解决过度拟合问题,必须使用正则化,并且有很多不同的正则化策略。在某些方法中,人们试图大幅度减少预测变量的数量,将问题减少到情况,然后使用标准回归。这正是主成分回归所做的。请参阅《元素》第3.4--3.6节。PCR通常是次优的,在大多数情况下,其他一些正则化方法会更好,但易于理解和解释。pn

请注意,PCR也不是任意的(例如,随机保持维的大小可能会变得更差)。其原因是PCR与脊回归密切相关,脊回归是一种标准的收缩调节剂,已知在许多情况下都能很好地起作用。进行比较,请参阅我的答案:岭回归与PCA回归之间的关系p

要看到与标准回归相比的性能提升,您需要一个包含大量预测变量而没有那么多样本的数据集,并且您肯定需要使用交叉验证或独立的测试集。如果您没有看到任何性能提升,则可能是您的数据集没有足够的维度。

相关的主题有好的答案:


1
鉴于他的出版物,可以断定他知道这一点。
Emre 2014年

谢谢@Emre,我不知道OP是谁。我可能会误解了这个问题,但是现在重新阅读后,我看不到如何以不同的方式解释它。如果有人问PCR的实际优势是什么,那么答案就是正则化。PCR实际上与岭回归密切相关,岭回归是最标准的正则化方法之一。
变形虫说恢复莫妮卡2014年

p>n

@ssdecontrol:我同意。我认为共识是PCR几乎没有竞争力,而且几乎总是有更好的方法。这也是我在回答中写的(不是吗?),但问题特别是关于预测变量的降维以及其目的可能是什么。我的回答是,目的是正则化。
变形虫说恢复莫妮卡2014年

明白了 但我认为我们可以同意,这个问题专门针对它的实用性提出质疑,因为尽管它具有直观的吸引力,但实际上并不是规范化的最佳方法
shadowtalker 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.