同时,我正在学习LASSO(最小绝对收缩和选择算子)。我看到可以通过交叉验证来选择正则化参数的最佳值。我还看到在岭回归和应用正则化的许多方法中,我们可以使用CV来找到最佳正则化参数(说惩罚)。现在我的问题是关于参数上限和下限的初始值以及如何确定序列的长度。
具体来说,假设我们有一个LASSO问题 ,我们想找到惩罚的最佳值。那么我们如何为选择下界和上限?以及这两个值之间有多少分割?
同时,我正在学习LASSO(最小绝对收缩和选择算子)。我看到可以通过交叉验证来选择正则化参数的最佳值。我还看到在岭回归和应用正则化的许多方法中,我们可以使用CV来找到最佳正则化参数(说惩罚)。现在我的问题是关于参数上限和下限的初始值以及如何确定序列的长度。
具体来说,假设我们有一个LASSO问题 ,我们想找到惩罚的最佳值。那么我们如何为选择下界和上限?以及这两个值之间有多少分割?
Answers:
在glmnet论文通过坐标下降的广义线性模型的正则化路径中描述了这种方法。尽管此处的方法适用于和正则化的一般情况,但它也应适用于LASSO(仅)。
第2.5节给出了最大的解决方案。
当,我们从(5)中看到,如果将保持为零。因此,
也就是说,我们观察到,针对beta的更新规则将所有参数估计值强制为零,如上所述。
确定和网格点的数量似乎不太原则。在glmnet中,他们设置,然后选择对数刻度上等间距点的网格。
这在实践中效果很好,在我广泛使用glmnet的过程中,我从未发现此网格过于粗糙。
在LASSO()中,只有情况更好,因为LARS方法可为各种预测变量何时进入模型提供精确的计算。真正的LARS不会在进行网格搜索,而是会为系数的求解路径生成精确的表达式。 这是在两种预测器情况下系数路径的精确计算的详细视图。
非线性模型(即逻辑模型,泊松模型)的情况更为困难。在高级别上,首先在初始参数处获得损耗函数的二次近似值,然后使用上述计算确定。在这些情况下,即使仅提供正则化,也无法精确计算参数路径,因此,网格搜索是唯一的选择。
样品重量也使情况复杂化,必须在适当的地方用加重的内产品替换内产品。