逐步回归的优点是什么?


11

为了解决问题,我正在尝试逐步回归。所以,我有两个问题:

  1. 逐步回归的优点是什么?它的特长是什么?

  2. 您如何看待混合方法?在混合方法中,您将使用逐步回归来选择要素,然后应用常规回归将所​​有所选要素结合在一起?

Answers:


15

逐步回归的主要优点是计算效率高。但是,其性能通常比其他方法差。问题是它太贪婪了。通过在下一个回归变量上进行艰难的选择并“冻结”权重,它做出的选择在每个步骤中都是局部最优的,但总体上次优。而且,它不能回去修改其过去的选择。

l1

Tibshirani(1996)。通过套索进行回归收缩和选择

l1

与您在(2)中提出的建议类似的方法称为正交匹配追踪。这是匹配追踪的概括,是信号处理文献中逐步回归的名称。

帕蒂等。(1993)。正交匹配追踪:递归函数逼近及其在小波分解中的应用

在每次迭代中,将下一个最佳回归变量添加到活动集中。然后,重新计算活动集中所有回归变量的权重。由于采用了重新加权步骤,因此与常规的匹配追踪/逐步回归相比,该方法的贪婪性更低(并且具有更好的性能)。但是,它仍然采用贪婪的搜索启发式方法。

所有这些方法(逐步回归,LASSO和正交匹配追踪)都可以认为是以下问题的近似值:

minwyXw22s.t. w0c

在回归上下文中,列对应于自变量,列对应于因变量。在信号处理中,列对应于基函数,是要近似的信号。目的是找到一组权重的稀疏集合,它们给出的最佳(最小二乘)近似值。该规范只计算非零条目数。不幸的是,这个问题很难解决,因此在实践中必须使用近似算法。逐步回归和正交匹配追踪尝试使用贪婪搜索策略来解决问题。LASSO通过放宽对XyXywyl0wl0规范到规范。在此,优化问题变得凸(因此易于处理)。并且,尽管问题不再相同,但解决方案相似。如果我没记错的话,事实证明,LASSO和正交匹配追踪都可以在某些条件下恢复精确的解。l1


8

逐步选择通常不是一个好主意。要了解原因,它可以帮助您在此处阅读我的答案:自动模型选择算法

就优势而言,在当今搜索功能的所有可能组合时,计算机在计算上过于繁琐,无法逐步处理,逐步选择可以节省时间并且易于处理。但是,请注意,上面我的链接答案中讨论的问题同样适用于“最佳子集”回归,因此,逐步解决不会产生好的解决方案,而只会更快地提供不好的解决方案。

只要将第二个模型(具有选定的特征)拟合到新的数据集上,您对混合方法的想法就可以


关于OP所谓的“混合方法”(不太确定为什么使用混合方法),您的意思是很好,因为第二个新数据集上的模型系数估计应该很好(同时在模型上有偏差且有问题)原始数据),只要新数据集足够大?当然,它可能是一个较差的模型,因为它是在第一个数据集上以错误的方式选择的,仅是在问题较少的数据集中即可估算出其系数。
比约恩

此外,通常仍然无法查看所有可能的组合,因为我们拥有数据的不同变量的数量增长速度甚至超过了计算能力,而且人们对模型中包含的内容的想法也越来越多。
Stephan Kolassa

继续阅读该线程无济于事。
Mox

2

我刚刚在Google搜索中找到了逐步回归。我不确定我是否完全理解它,但这是我的第一个想法

  • 它很贪婪,因此无法像Lasso一样产生好的解决方案。我更喜欢套索
  • 简单,易用,易于编码
  • 使用逐步回归后,您已经得到了一个使用选定特征的经过训练的模型,因此您无需使用其他混合步骤,就像您提到的混合方法一样
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.