12 我已经在多个地方读到,当使用LASSO拟合模型时,R平方不是理想的度量。但是,我不清楚为什么会这样。 另外,您能推荐最好的选择吗? regression lasso r-squared penalized — 戴夫 source
19 使用LASSO的目的是在没有太多协变量的情况下获得(预测量的)稀疏表示。将模型与进行比较会倾向于使用具有许多协变量的模型:实际上,添加与结果无关的协变量将永远不会降低R 2,并且几乎总是将其至少增加一点。LASSO模型将识别具有最佳惩罚对数似然性的模型(未惩罚对数似然性与R 2单调相关)。例如,BIC或交叉验证的R 2是更广泛用于将LASSO模型与其他类型的模型进行比较的验证统计信息。[R2[R2[R2[R2[R2[R2[R2[R2 — 亚当 source 1 +1以清楚地说明原因并提供替代方案 — Haitao Du 1 非常感谢您的出色回答!您是否会介意“ LASSO模型将识别具有最佳惩罚对数似然性的模型(非惩罚对数似然性与R2单调相关)”。我采用第一部分的意思是它将选择误差最小的模型(在预测中和通过惩罚)?但是我不清楚方括号中的含义。这是否意味着随着R2的下降,未惩罚的LL会上升?另外,交叉验证的R2是否必须位于全新的数据集中?还是可以基于训练数据? — 戴夫 3 日志(2 π)N+ 1 - 日志(N)+ 日志(∑ñ我= 1[R2一世)日志(2π)ñ+1个-日志(ñ)+日志(∑一世=1个ñ[R一世2)1 − ∑ñ我= 1[R2一世/ ∑ñ我= 1ÿ2一世1个-∑一世=1个ñ[R一世2/∑一世=1个ñÿ一世2。惩罚间接地导致错误,这是您为稀疏性付出的代价。未经惩罚的模型将始终具有较低的(内部)误差。人们通常会对同一数据集进行交叉验证。在新的数据集中测试模型是另一回事(不需要“交叉”部分),而且做得还不够。 — AdamO @AdamO我认为将您的评论编辑成答案是一个好主意,这非常好。 — 马修·德鲁里 嗨,@ AdamO,最后的跟进问题。我现在了解为什么传统的R2不好。但是,我不清楚为什么交叉验证的R2(在同一数据集中)还可以吗? — 戴夫