我对LASSO回归的理解是选择回归系数来解决最小化问题:
实际上,这是使用拉格朗日乘数来完成的,从而可以解决问题
和t是什么关系?维基百科无奈地简单地指出“依赖于数据”。
我为什么在乎?首先是出于求知欲。但是我也担心通过交叉验证选择\ lambda的后果。
具体来说,如果我要进行n倍交叉验证,则可以将n个不同的模型拟合到我的训练数据的n个不同分区中。然后,针对给定的\ lambda,在未使用的数据上比较每个模型的准确性。但是相同的\ lambda对数据的不同子集意味着不同的约束()(即是“数据相关的”)。
我不是真的要解决交叉验证问题,以找到能够提供最佳偏差精度折衷方案的吗?
通过为每个交叉验证拆分和\ lambda计算\ | \ beta \ | _1并查看结果分布,我可以大致了解这种效果的大小。在某些情况下,我的交叉验证子集中的隐含约束(t)可能会大幅变化。我所说的基本上是指t >> 0的变化系数。
5
进行投票以取消无法解释的降票。这个问题超出了我的专业知识范围,但似乎合理地提出了。
—
mkt-恢复莫妮卡