当岭和套索分别表现良好但产生不同系数时如何解释结果


11

我正在使用Lasso和Ridge来运行回归模型(以预测介于0-5之间的离散结果变量)。在运行模型之前,我使用的SelectKBest方法scikit-learn将功能集从250减少到25。如果没有初始特征选择,套索和里奇均会降低准确性得分(这可能是由于样本量小600)所致。另外,请注意,某些功能是相关的。

运行模型后,我观察到Lasso和Ridge的预测精度几乎相同。但是,当我按系数的绝对值对它们进行排序后检查前10个特征时,我发现最多有%50重叠。

也就是说,鉴于每种方法分配的特征的重要性不同,基于所选模型,我可能会有完全不同的解释。

通常,这些功能代表网站中用户行为的某些方面。因此,我想通过突出具有较强预测能力而不是较弱特征(用户行为)的特征(用户行为)来解释发现。但是,我目前不知道如何前进。我应该如何解释模型?例如,应该结合两者并突出显示重叠部分,还是我应该选择Lasso,因为它提供了更多的可解释性?


3
(+1)正则化可以看作是使单个系数的估算更糟,同时在预测新的响应时提高其集体绩效。您到底想通过解释实现什么?
Scortchi-恢复莫妮卡

1
@Scortchi感谢您的回复。我添加了此内容Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre

3
+1 AFAIK脊系数和lambda之间的关系不必是单调的,而在套索中则是。因此,在某些收缩水平下,脊和套索中的系数的绝对值可能变化很大。话虽如此,我将不胜感激,如果有人能够勾勒证明了这一点或稍后解释数学
卢卡斯奇格勒

确保您正在对“ beta”系数进行排序。请参阅stats.stackexchange.com/a/243439/70282。您可以通过训练标准化变量或稍后进行调整来获得它们,如链接中所述。
克里斯(Chris

1
如果预测变量相关,则@ŁukaszGradLASSO系数不必是单调函数;参见ISLR图6.6 。λ
EdM

Answers:


7

岭回归鼓励所有系数变小。套索鼓励许多/大多数[**]系数变为零,而有一些非零。两者都会降低训练集的准确性,但会以某种方式改善预测:

  • 岭回归尝试通过减少过度拟合来改善对测试集的通用性
  • 套索会减少非零系数的数量,即使这会影响训练和测试集的性能

如果您的数据高度相关,则可以选择不同的系数。因此,您可能具有5个相关的功能:

  • 通过为所有这些特征分配较小但非零的系数,岭回归可以在训练集上实现低损失,这有可能推广到测试集
  • 套索可能只选择其中一个,而与其他四个关联良好。而且没有理由为什么它应该选择岭回归版本中具有最高系数的特征

[*]表示“选择”的含义:分配一个非零系数,这仍然有些麻烦,因为脊回归系数将趋向于全部为非零,但例如某些系数可能类似于1e-8 ,其他可能是例如0.01

[**]细微差别:正如Richard Hardy指出的那样,对于某些用例,可以选择的值,这将导致所有LASSO系数都为非零,但会有所减少λ


好建议。一个很好的检查是做一个相关矩阵。非重叠变量可以高度相关。
克里斯(Chris

3
好答案!但是,我不确定是否公平地建议ridge普遍尝试提高测试性能,而对套索则没有相同的建议。例如,如果真实模型是稀疏的(并且在我们的预测变量的子集中),我们可以立即期望套索具有比岭更好的测试性能
user795305 2014年

这就是“稀疏打赌”的原则。例如,首先看到的情节在这里:faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305

2
数据的多个自举样本之间的变量选择(LASSO)和回归系数的比较可以很好地说明这些问题。使用相关的预测器,LASSO从不同的引导程序选择的预测器可能会完全不同,同时仍提供相似的预测性能。理想情况下,应在多个引导程序上重复进行包括初始特征集缩减在内的整个模型构建过程,以记录过程的质量。
EdM

通过选择这些特征中的4个,系数较低甚至全部都具有较小但非零系数的特征,岭回归可以降低训练集上的损失 -岭回归不会选择变量。同样,对于低值,套索将选择所有变量,但会做一些收缩,就像ridge一样。λ
理查德·哈迪
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.