我正在使用Lasso和Ridge来运行回归模型(以预测介于0-5之间的离散结果变量)。在运行模型之前,我使用的SelectKBest
方法scikit-learn
将功能集从250减少到25。如果没有初始特征选择,套索和里奇均会降低准确性得分(这可能是由于样本量小600)所致。另外,请注意,某些功能是相关的。
运行模型后,我观察到Lasso和Ridge的预测精度几乎相同。但是,当我按系数的绝对值对它们进行排序后检查前10个特征时,我发现最多有%50重叠。
也就是说,鉴于每种方法分配的特征的重要性不同,基于所选模型,我可能会有完全不同的解释。
通常,这些功能代表网站中用户行为的某些方面。因此,我想通过突出具有较强预测能力而不是较弱特征(用户行为)的特征(用户行为)来解释发现。但是,我目前不知道如何前进。我应该如何解释模型?例如,应该结合两者并突出显示重叠部分,还是我应该选择Lasso,因为它提供了更多的可解释性?
3
(+1)正则化可以看作是使单个系数的估算更糟,同时在预测新的响应时提高其集体绩效。您到底想通过解释实现什么?
—
Scortchi-恢复莫妮卡
@Scortchi感谢您的回复。我添加了此内容
—
renakre
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
+1 AFAIK脊系数和lambda之间的关系不必是单调的,而在套索中则是。因此,在某些收缩水平下,脊和套索中的系数的绝对值可能变化很大。话虽如此,我将不胜感激,如果有人能够勾勒证明了这一点或稍后解释数学
—
卢卡斯奇格勒
确保您正在对“ beta”系数进行排序。请参阅stats.stackexchange.com/a/243439/70282。您可以通过训练标准化变量或稍后进行调整来获得它们,如链接中所述。
—
克里斯(Chris