Questions tagged «lasso»

回归模型的正则化方法将系数缩小为零,使其中一些等于零。因此套索执行特征选择。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。


3
R中的非负套索实现
我正在寻找可以使用的开放源代码或现有库。据我所知,glmnet软件包不是很容易扩展以涵盖非负面情况。我可能是错的,任何有任何想法的人都非常感谢。 非负数是指所有系数均被约束为正数(> 0)。
13 r  lasso 


1
LASSO自由度的直觉
邹等。“关于套索的“自由度””(2007年)表明,非零系数的数量是对套索的自由度的无偏且一致的估计。 对我来说似乎有点违反直觉。 假设我们有一个回归模型(变量为零均值) y=βx+ε.y=βx+ε.y=\beta x + \varepsilon. 假设的无限制OLS估计值为\ hat \ beta_ {OLS} = 0.5。对于非常低的惩罚强度,它可能与LASSO估计值\ beta大致吻合。ββ\betaβ^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta 进一步假设特定惩罚强度\ lambda ^ *的LASSO估计λ∗λ∗\lambda^*值为β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4。例如,对于使用交叉验证发现的现有数据集,λ∗λ∗\lambda^*可能是“最优” λλ\lambda。 如果我理解正确,则在两种情况下自由度均为1,因为两次均存在一个非零回归系数。 题: 即使β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4表示拟合的“自由度”比\ hat \ beta_ {OLS} = 0.5小,两种情况下的自由度又如何相同β^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5? 参考文献: 邹辉,特雷弗·哈斯蒂和罗伯特·蒂布希拉尼。“关于套索的“自由度”。” 统计年鉴 35.5(2007):2173-2192。

2
套索修改为LARS
我试图了解如何修改Lars算法以生成套索。虽然我确实了解LARS,但无法从Tibshirani等人的论文中看到套索的修改。特别是我不明白为什么非零坐标的符号必须与当前相关的符号一致的符号条件。有人可以帮我吗 我想我正在寻找对原始L-1规范问题(即套索)使用KKT条件的数学证明。非常感谢!
12 lasso 


1
用新观察值更新套索拟合
我正在将L1正则化线性回归拟合到一个非常大的数据集(具有n >> p。)中,变量是预先已知的,但观察结果却很小。我想在每个块之后保持套索适合。 在看到每组新的观察结果之后,我显然可以重新拟合整个模型。但是,鉴于有大量数据,这将是非常低效的。到达每个步骤的新数据量非常小,并且拟合之间不太可能在步骤之间变化很大。 我有什么办法可以减少总体计算负担? 我一直在研究Efron等人的LARS算法,但是如果可以按照上述方式进行“热启动”,那么很高兴考虑其他任何拟合方法。 笔记: 我主要是在寻找一种算法,但是指向可以做到这一点的现有软件包的指针也可能很有见地。 除了当前的套索轨迹外,当然欢迎该算法保持其他状态。 布拉德利·埃夫隆(Bradley Efron),特雷弗·哈斯提(Trevor Hastie),伊恩·约翰斯通(Iain Johnstone)和罗伯特·蒂布舍拉尼(Robert Tibshirani),《 最小角度回归》,《统计年鉴》(含讨论)(2004)32(2),407--499。
12 regression  lasso 

4
如何将迭代加权最小二乘(IRLS)方法应用于LASSO模型?
我已经使用IRLS算法对逻辑回归进行了编程。我想对LASSO进行处罚,以便自动选择正确的功能。在每次迭代中,解决了以下问题: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} 令为非负实数。我没有按照《The Elements of》中的建议对拦截进行处罚。统计学习。同为零的系数。否则,我从右边减去一个术语:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} 但是,我不确定IRLS算法的修改。这是正确的方法吗? 编辑:尽管我对此并不自信,但这是我最终想出的解决方案之一。有趣的是,此解决方案与我现在对LASSO的了解相对应。实际上,每次迭代有两个步骤,而不仅仅是一个步骤: 第一步与之前相同:我们对该算法进行迭代(就像上面梯度的公式中),λ=0λ=0\lambda=0 第二步是新步骤:我们对第一步获得的向量每个分量(分量,它对应于截距)应用一个软阈值。这称为迭代软阈值算法。 ββ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)


4
是什么导致套索对于特征选择不稳定?
在压缩感知中,有一个定理保证 具有唯一的稀疏解c(有关更多详细信息,请参见附录)。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 套索有类似的定理吗?如果有这样一个定理,那么它不仅可以保证套索的稳定性,而且还可以为套索提供更有意义的解释: 套索可以发现稀疏回归系数向量ccc,该向量用于通过y = Xc生成响应y。yyyy=Xcy=Xcy = Xc 我问这个问题有两个原因: 我认为“套索偏爱稀疏解决方案”并不能解决为什么使用套索进行特征选择的问题,因为我们甚至无法分辨选择特征的优势。 我了解到套索因功能选择不稳定而臭名昭著。在实践中,我们必须运行引导程序样本以评估其稳定性。导致这种不稳定的最关键原因是什么? 附录: 给定XN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)。ccc是ΩΩ\Omega稀疏向量(Ω⩽MΩ⩽M\Omega \leqslant M)。过程y=Xcy=Xcy = Xc生成响应yyy。如果XXX具有\ Omega阶的NSP(零空间属性),ΩΩ\Omega并且X的协方差矩阵的XXX特征值都不接近零,则 argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y …

1
LASSO回归系数的解释
我目前正在为具有约300个变量和800个观察值的数据集构建二进制结果的预测模型。我已经在该站点上阅读了很多有关逐步回归相关问题以及为什么不使用它的知识。 我一直在阅读LASSO回归及其功能选择功能,并已成功使用“插入符号”包和“ glmnet”实现了它。 我能够提取与优化模型的系数lambda,并alpha从“插入符号”; 但是,我不熟悉如何解释系数。 LASSO系数的解释方法是否与逻辑回归相同? 在逻辑回归中使用从LASSO中选择的特征是否合适? 编辑 系数的解释(如LASSO回归的指数系数一样)是系数保持1个单位变化时的对数赔率,同时保持所有其他系数不变。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpreting-odds-ratios-in-logistic-regression/

2
为什么ridge回归不能提供比LASSO更好的解释性?
我已经对ridge回归和LASSO的利弊有了一个想法。 对于LASSO,L1惩罚项将产生稀疏系数矢量,可以将其视为特征选择方法。但是,LASSO有一些限制。如果特征具有高度相关性,则LASSO将仅选择其中之一。此外,对于 >问题,LASSO将最多选择参数(和分别是观测值和参数的数量)。与岭回归相比,就可预测性而言,这些经验使LASSO成为次优方法。Ñ Ñ Ñ ppppnnnnnnnnnppp 对于岭回归,通常可以提供更好的可预测性。但是,它的可解释性不如LASSO。 上面的解释通常可以在机器学习/数据挖掘的教科书中找到。但是,我仍然对两件事感到困惑: 如果我们对特征范围进行归一化(例如,介于0和1之间,或者均值和单位方差为零),并进行岭回归,则仍可以通过对系数的绝对值进行排序来了解特征的重要性(最重要的特征具有系数的最大绝对值)。尽管我们没有明确选择功能,但使用ridge回归并不会丧失可解释性。同时,我们仍然可以实现较高的预测能力。那为什么我们需要LASSO?我在这里想念什么吗? LASSO是否因其特征选择特性而被首选?据我了解,我们之所以需要特征选择,是因为它具有泛化能力和易于计算的能力。 为了简化计算,如果我们要执行某些NLP任务,我们不想将所有一百万个特征都馈入模型,因此我们首先删除一些显然无用的特征以降低计算成本。但是,对于LASSO,只有在将所有数据输入模型后才能知道特征选择结果(稀疏矢量),因此就降低计算成本而言,我们没有从LASSO中受益。我们只能更快地进行预测,因为现在我们仅将特征子集(例如一百万个中的500个)馈入模型以生成预测结果。 如果LASSO因其具有泛化能力而被首选,那么我们也可以使用ridge回归(或任何其他类型的正则化)来实现相同的目标。为什么我们再次需要LASSO(或弹性网)?为什么我们不能只坚持岭回归? 有人可以请问一下吗?谢谢!

1
在LASSO中为正则化参数选择范围和网格密度
同时,我正在学习LASSO(最小绝对收缩和选择算子)。我看到可以通过交叉验证来选择正则化参数的最佳值。我还看到在岭回归和应用正则化的许多方法中,我们可以使用CV来找到最佳正则化参数(说惩罚)。现在我的问题是关于参数上限和下限的初始值以及如何确定序列的长度。 具体来说,假设我们有一个LASSO问题 ,我们想找到惩罚的最佳值。那么我们如何为选择下界和上限?以及这两个值之间有多少分割?LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1 λλ\lambdaλ∈[a=?,b=?]λ∈[a=?,b=?]\lambda \in [a=?,b=?](b−a)k=?(b−a)k=?\frac{(b-a)}{k=?}

5
Ridge&LASSO规范
这篇文章遵循以下内容:为什么通过向对角线添加一个常数,使岭估计变得比OLS好? 这是我的问题: 据我所知,岭正则化使用 -norm(欧几里德距离)。但是,为什么我们要使用此规范的平方呢?(的直接应用将 beta平方和的平方根)。ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 作为比较,对于LASSO,它不使用 -norm进行正则化。但是,这里是“真实的”范数(只是beta绝对值的平方的和,而不是该和的平方)。ℓ 1ℓ1个ℓ1\ell_1ℓ1个ℓ1\ell_1 有人可以帮我澄清一下吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.