Answers:
逐步回归的主要优点是计算效率高。但是,其性能通常比其他方法差。问题是它太贪婪了。通过在下一个回归变量上进行艰难的选择并“冻结”权重,它做出的选择在每个步骤中都是局部最优的,但总体上次优。而且,它不能回去修改其过去的选择。
Tibshirani(1996)。通过套索进行回归收缩和选择
与您在(2)中提出的建议类似的方法称为正交匹配追踪。这是匹配追踪的概括,是信号处理文献中逐步回归的名称。
帕蒂等。(1993)。正交匹配追踪:递归函数逼近及其在小波分解中的应用
在每次迭代中,将下一个最佳回归变量添加到活动集中。然后,重新计算活动集中所有回归变量的权重。由于采用了重新加权步骤,因此与常规的匹配追踪/逐步回归相比,该方法的贪婪性更低(并且具有更好的性能)。但是,它仍然采用贪婪的搜索启发式方法。
所有这些方法(逐步回归,LASSO和正交匹配追踪)都可以认为是以下问题的近似值:
在回归上下文中,列对应于自变量,列对应于因变量。在信号处理中,列对应于基函数,是要近似的信号。目的是找到一组权重的稀疏集合,它们给出的最佳(最小二乘)近似值。该规范只计算非零条目数。不幸的是,这个问题很难解决,因此在实践中必须使用近似算法。逐步回归和正交匹配追踪尝试使用贪婪搜索策略来解决问题。LASSO通过放宽对规范到规范。在此,优化问题变得凸(因此易于处理)。并且,尽管问题不再相同,但解决方案相似。如果我没记错的话,事实证明,LASSO和正交匹配追踪都可以在某些条件下恢复精确的解。
逐步选择通常不是一个好主意。要了解原因,它可以帮助您在此处阅读我的答案:自动模型选择算法。
就优势而言,在当今搜索功能的所有可能组合时,计算机在计算上过于繁琐,无法逐步处理,逐步选择可以节省时间并且易于处理。但是,请注意,上面我的链接答案中讨论的问题同样适用于“最佳子集”回归,因此,逐步解决不会产生好的解决方案,而只会更快地提供不好的解决方案。
只要将第二个模型(具有选定的特征)拟合到新的数据集上,您对混合方法的想法就可以了。