为什么R平方不是使用LASSO拟合回归的好方法?


12

我已经在多个地方读到,当使用LASSO拟合模型时,R平方不是理想的度量。但是,我不清楚为什么会这样。

另外,您能推荐最好的选择吗?

Answers:


19

使用LASSO的目的是在没有太多协变量的情况下获得(预测量的)稀疏表示。将模型与进行比较会倾向于使用具有许多协变量的模型:实际上,添加与结果无关的协变量将永远不会降低R 2,并且几乎总是将其至少增加一点。LASSO模型将识别具有最佳惩罚对数似然性的模型(未惩罚对数似然性与R 2单调相关)。例如,BIC或交叉验证的R 2是更广泛用于将LASSO模型与其他类型的模型进行比较的验证统计信息。[R2[R2[R2[R2


1
+1以清楚地说明原因并提供替代方案
Haitao Du

1
非常感谢您的出色回答!您是否会介意“ LASSO模型将识别具有最佳惩罚对数似然性的模型(非惩罚对数似然性与R2单调相关)”。我采用第一部分的意思是它将选择误差最小的模型(在预测中和通过惩罚)?但是我不清楚方括号中的含义。这是否意味着随着R2的下降,未惩罚的LL会上升?另外,交叉验证的R2是否必须位于全新的数据集中?还是可以基于训练数据?
戴夫

3
日志2πñ+1个-日志ñ+日志一世=1个ñ[R一世21个-一世=1个ñ[R一世2/一世=1个ñÿ一世2。惩罚间接地导致错误,这是您为稀疏性付出的代价。未经惩罚的模型将始终具有较低的(内部)误差。人们通常会对同一数据集进行交叉验证。在新的数据集中测试模型是另一回事(不需要“交叉”部分),而且做得还不够。
AdamO

@AdamO我认为将您的评论编辑成答案是一个好主意,这非常好。
马修·德鲁里

嗨,@ AdamO,最后的跟进问题。我现在了解为什么传统的R2不好。但是,我不清楚为什么交叉验证的R2(在同一数据集中)还可以吗?
戴夫
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.