Questions tagged «lasso»

回归模型的正则化方法将系数缩小为零,使其中一些等于零。因此套索执行特征选择。

1
解读LASSO变量迹线图
我是该glmnet软件包的新手,但仍不确定如何解释结果。谁能帮助我阅读以下跟踪图? 通过运行以下命令获得该图: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

2
LASSO / LARS与一般到特定(GETS)方法
我一直在想,为什么LASSO和LARS模型选择方法如此受欢迎,即使它们基本上只是逐步向前选择的变体(并因此受到路径依赖性)? 同样,为什么通用到特定(GETS)方法用于模型选择,尽管它们比LARS / LASSO更好,因为它们没有逐步回归问题,因此为什么大多数该模型被忽略?(关于GETS的基本参考资料:http ://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-其中的最新算法从避免路径依赖的广泛模型和树搜索开始,并且已经证明可以通常比LASSO / LARS更好。 似乎很奇怪,LARS / LASSO似乎比General to Specific(GETS)获得了更多的曝光和引用,有人对此有何想法? 并非试图引发激烈的辩论,而是寻找合理的解释,以解释为什么文学似乎确实集中在LASSO / LARS而不是GETS上,很少有人指出LASSO / LARS的缺点。


4
套索的最佳罚分选择
是否有关于任何分析结果或实验论文最优的系数的选择罚项。通过优化,我的意思是最大化选择最佳模式,或最大限度地减少预期损失的概率相关的参数。我之所以问是因为,由于问题的实例很多,或者由于手头的问题的大小,通过交叉验证或引导程序选择参数通常是不切实际的。唯一积极的结果,我所知道的是Candes和计划,通过近理想模型选择ℓ 1的最小化。ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

1
glmnet logistic回归可以直接处理因子(类别)变量而不需要虚拟变量吗?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 我正在使用LASSO方法在R中构建逻辑回归,并具有cv.glmnet用于选择lambda和glmnet用于最终模型的功能。 我已经知道关于自动模型选择的所有缺点,但是无论如何我都需要这样做。 我的问题是我需要在模型中包括因子(分类)变量,有什么方法可以在不创建大量虚拟变量的情况下做到这一点?此变量几乎是所有字符串,而不是数字。

1
在套索中给出0分量的最小
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n 我们知道,对于,套索估计\ hat \ beta ^ \ lambda = 0。(例如,请参阅Lasso和Ridge调整参数范围。)用另一种表示法表示\ lambda_ \ max = \ frac {1} {n} \ | X ^ T y \ | _ \ infty。请注意,\ lambda_ …

1
在随机森林上使用LASSO
我想使用以下过程创建一个随机森林: 使用信息增益确定拆分,在数据和要素的随机样本上构建树 如果叶子节点超过预定深度,则终止该叶子节点,否则任何拆分都会导致叶子数少于预定最小值 而不是为每棵树分配一个类标签,而是在叶节点中分配类的比例 在构建了预定义数量之后停止构建树木 这从两个方面打破了传统的随机森林过程。第一,它使用分配比例而不是类标签的修剪树。第二,停止标准是树木的预定数量,而不是一些袋外误差估计。 我的问题是这样的: 对于上面输出N棵树的过程,我可以使用Logistic回归和LASSO选择来拟合模型吗?有没有人有经验适合随机森林分类器并使用逻辑LASSO进行后处理? ISLE框架提到使用LASSO作为回归问题(而非分类问题)的后处理步骤。此外,在搜索“随机森林套索”时,我没有得到任何有用的结果。

2
AIC,BIC和GCV:在惩罚回归方法中做出决策的最佳方法是什么?
我的一般理解是AIC处理模型的拟合优度和模型的复杂性之间的权衡。 一个我C= 2 k - 2 l n (L )AIC=2k−2ln(L)AIC =2k -2ln(L) ķkk =模型中的参数数量 大号LL =可能性 贝叶斯信息准则BIC与AIC密切相关.AIC对参数数量的惩罚程度不如BIC。我可以看到这两个在历史上到处都有使用。但是广义交叉验证(GCV)对我来说是新的。GCV如何与BIC或AIC相关?这些标准如何一起或单独用于在像ridge这样的面板回归中选择惩罚项? 编辑: 这是一个思考和讨论的示例: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE) p <- pentrace(ridgefits, seq(0,1,by=.01)) effective.df(ridgefits,p) out <- p$results.all par(mfrow=c(3,2)) plot(out$df, out$aic, col = "blue", type = "l", ylab = …


1
JAGS中的正则贝叶斯逻辑回归
有许多数学方面的文章描述了贝叶斯套索,但是我要测试可以使用的正确JAGS代码。 有人可以发布实现正则逻辑回归的示例BUGS / JAGS代码吗?任何方案(L1,L2,Elasticnet)都不错,但是Lasso是首选。我也想知道是否有有趣的替代实施策略。

2
为什么与套索相比,最好的子集选择不受欢迎?
我正在阅读《统计学习的元素》一书中有关最佳子集选择的内容。如果我有3个预测变量,则创建个子集:2 3 = 8x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 无预测子集 具有预测变量子集x1x1x_1 具有预测变量子集x2x2x_2 具有预测值子集x3x3x_3 具有预测变量子集x1,x2x1,x2x_1,x_2 具有预测变量子集x1,x3x1,x3x_1,x_3 具有预测变量子集X2,X3x2,x3x_2,x_3 具有预测变量子集X1个,X2,X3x1,x2,x3x_1,x_2,x_3 然后,我在测试数据上测试所有这些模型,以选择最佳模型。 现在我的问题是为什么与套索相比,最好的子集选择不受欢迎? 如果我比较最佳子集和套索的阈值函数,我会看到最佳子集将某些系数设置为零,例如套索。但是,其他系数(非零)仍将具有ols值,它们将是无偏的。而在套索中,一些系数将为零,而其他系数(非零)将具有一些偏差。下图更好地显示了它: 从图片中,最佳子集情况下的红线部分位于灰色部分。另一部分位于x轴上,其中某些系数为零。灰线定义了无偏解。在套索中,引入了一些偏差。从该图可以看出,最好的子集比套索更好!使用最佳子集的缺点是什么?λλ\lambda

1
数据矩阵为对角线时套索问题的闭式解
\newcommand{\diag}{\operatorname{diag}}我们遇到了问题:\ min_ {w \ in \ mathbb {R} ^ {d}} \ left(\ frac {1} {n} \ sum_ {i = 1} ^ {n} \ left(\ langle w,x_ {i} \ rangle-y_ {i} \ right)^ {2} +2 \ lambda || w || _1 \ right),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), 并假设:∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). 在这种情况下是否有封闭形式的解决方案? …

2
如果p> n,套索最多选择n个变量
弹性网的动机之一是对LASSO的以下限制: 在情况下,由于凸优化问题的性质,套索在饱和之前最多选择n个变量。这似乎是变量选择方法的限制功能。此外,除非系数的L1-范数上的界限小于某个值,否则套索的定义不明确。p>np>np > n (http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full) 我知道LASSO是一个二次规划问题,但也可以通过LARS或逐元素梯度下降来解决。但是我不明白,如果,其中是预测变量的数量,是样本大小,那么在这些算法中我会遇到问题。为什么使用弹性网解决了这个问题,我将问题扩大到明显超过变量。p n p + n pp>np>np > npppnnnp+np+np+nppp

1
复制“统计学习要素”中的表18.1
统计学习元素中的表18.1 总结了14个类别数据集上几个分类器的性能。我正在将套索和弹性网的新算法与此类多类分类问题进行比较。 使用glmnet版本1.5.3(R 2.13.0),我无法复制表中的点7(惩罚的多项式),其中报告使用的基因数量为269,测试错误为13 54。使用的数据是此14癌症微阵列数据集。无论我如何尝试,我都会在170-180个基因附近使用性能最佳的模型,其54个测试错误中的16个。大号1个大号1个L_1 注意,在654页的18.3节的开头,描述了数据的一些预处理。 我已经联系了作者-到目前为止没有任何回复-请问是否有人可以确认复制表格是否存在问题或提供有关如何复制表格的解决方案。

3
使用GLMNET还是LARS计算LASSO解决方案?
我想获得LASSO问题的系数 | | ÿ- Xβ| | +λ | | β| |1个。||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 问题是glmnet和lars函数给出不同的答案。对于glmnet函数,我要求的系数。| Y | | 而不只是,但我仍然得到不同的答案。λ / | | ÿ| |λ/||Y||\lambda/||Y||λλ\lambda 这是预期的吗?lars和glmnet之间是什么关系?我知道glmnet解决LASSO问题的速度更快,但是我想知道哪种方法更强大?λλλ\lambdaλλ\lambda deps_stats恐怕我的数据集太大,以至于LARS无法处理它,而另一方面glmnet可以处理我的大型数据集。 mpiktas我想找到(Y-Xb)^ 2 + L \ sum | b_j |的解决方案 但是,当我从两种算法(拉尔斯和glmnet)询问它们对于特定L的计算系数时,我得到了不同的答案……我想知道这是正确的/预期的吗?或者我只是为两个函数使用了错误的lambda。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.