统计和大数据 lasso

3

LASSO和自适应LASSO是两个不同的东西，对吗？（对我来说，处罚看起来有所不同，但我只是在检查我是否错过了某件事。）当您通常谈到弹性网时，是LASSO还是自适应LASSO？如果您选择alpha = 1，glmnet包将执行哪一个操作？自适应LASSO可在较温和的条件下工作，对吗？两者都在适当的数据中具有oracle属性，对吗？

12 lasso glmnet elastic-net oracle

3

如何使用glmnet以收缩（套索）方法处理NA值

我在GWAS中使用“ glmnet”进行套索回归。某些变体和个人缺少值，并且glmnet似乎无法处理丢失的值。有什么解决办法吗？还是有其他软件包可以处理套索回归中的缺失值？这是我的脚本。 > library(glmnet) > geno6<-read.table("c6sigCnt.geno") > geno6[1:10,1:10] #genotype file (0,1,2 for minor allele counts) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 1 1 1 1 1 1 1 1 1 0 2 NA NA 1 1 1 1 1 1 1 1 3 …

12 missing-data lasso glmnet

2

glmnet包中的偏差度量的确切定义，是否具有交叉验证？

对于当前的研究，我通过二项式因变量通过R中的glmnet包使用Lasso方法。在glmnet中，可以通过交叉验证找到最佳的lambda，并将生成的模型与各种度量进行比较，例如分类错误或偏差。我的问题：glmnet中的偏差有多准确？如何计算？（在Friedman等人的相应论文“通过坐标下降的广义线性模型的正则化路径”中，我仅对cv.glmnet中使用的偏差发现了这一评论：“平均偏差（减去左侧的对数似然的两倍数据）”（第17页））。

12 cross-validation lasso glmnet deviance lars

2

使用KKT 显示范数正则回归与范数约束回归之间的等价关系

根据参考文献1册，第二册和纸。已经提到，正规化回归（Ridge，LASSO和Elastic Net）与其约束公式之间存在等价关系。我还查看了交叉验证1和交叉验证2，但是我看不到明确的答案表明等价或逻辑。我的问题是如何使用Karush–Kuhn–Tucker（KKT）证明这种等效性？以下公式适用于Ridge回归。注意这个问题不是功课。只是增加了我对该主题的理解。更新我还不知道

11 regression optimization lasso ridge-regression elastic-net

1

当岭和套索分别表现良好但产生不同系数时如何解释结果

我正在使用Lasso和Ridge来运行回归模型（以预测介于0-5之间的离散结果变量）。在运行模型之前，我使用的SelectKBest方法scikit-learn将功能集从250减少到25。如果没有初始特征选择，套索和里奇均会降低准确性得分（这可能是由于样本量小600）所致。另外，请注意，某些功能是相关的。运行模型后，我观察到Lasso和Ridge的预测精度几乎相同。但是，当我按系数的绝对值对它们进行排序后检查前10个特征时，我发现最多有％50重叠。也就是说，鉴于每种方法分配的特征的重要性不同，基于所选模型，我可能会有完全不同的解释。通常，这些功能代表网站中用户行为的某些方面。因此，我想通过突出具有较强预测能力而不是较弱特征（用户行为）的特征（用户行为）来解释发现。但是，我目前不知道如何前进。我应该如何解释模型？例如，应该结合两者并突出显示重叠部分，还是我应该选择Lasso，因为它提供了更多的可解释性？

11 regression predictive-models feature-selection lasso ridge-regression

2

复杂调查数据中LASSO之后的交叉验证

我正在尝试使用具有连续结果的LASSO对一些候选预测变量进行模型选择。目标是选择具有最佳预测性能的最佳模型，通常可以从LASSO获得调整参数的求解路径后，通过K倍交叉验证来完成。这里的问题是数据来自复杂的多阶段调查设计（NHANES），并进行了聚类采样和分层。估计部分并不难，因为glmnetR中可以获取采样权重。但是交叉验证部分对我而言不太清楚，因为现在不再观察到观测值了，该程序如何解释代表有限总体的权重采样？所以我的问题是： 1）如何对复杂的调查数据进行K折交叉验证以选择最佳调整参数？更具体地说，如何将样本数据适当地划分为训练集和验证集？以及如何定义预测误差的估计？ 2）是否有选择最佳调整参数的替代方法？

11 cross-validation survey lasso glmnet

2

二次编程和套索

我正在尝试执行套索回归，其格式如下：在最小化（Y - X w ）'（Y - X w ）+ λwww（是- Xw）′（是- Xw ）+ λ| w |1个(Y−Xw)′(Y−Xw)+λ|w|1(Y - Xw)'(Y - Xw) + \lambda \;|w|_1 给定，建议我借助二次编程来找到最佳，二次编程采用以下形式：w ^λλ\lambdawww 最小化在，受1Xxx甲X≤b。1个2X′Q X + C ^′X12x′Qx+c′x\frac{1}{2} x'Qx + c'x甲X ≤ b 。Ax≤b.Ax \le b. 现在，我意识到应该将项转换为约束项，这非常简单。但是，我以某种方式看不到如何将第一个方程式的第一项转换为第二个方程式的第一项。我在网上找不到很多，所以决定在这里问。甲X ≤ bλλ\lambda一个X ≤ bAx≤bAx \le b

11 regression lasso quadratic-form

4

如何使用回归确定一个系数并拟合其他系数

我想手动固定某个系数，例如，然后将系数拟合到所有其他预测变量，同时在模型中保留。β1=1.0β1=1.0\beta_1=1.0β1=1.0β1=1.0\beta_1=1.0 如何使用R实现此目的？glmnet如果可能的话，我特别想与LASSO（）合作。或者，如何将这个系数限制在特定范围内，例如？0.5≤β1≤1.00.5≤β1≤1.00.5\le\beta_1\le1.0

11 r multiple-regression lasso glmnet constrained-regression

1

Ridge和LASSO具有协方差结构？

在阅读了《统计学习的要素》（Hastie，Tibshrani和Friedman）的第3章之后，我想知道是否有可能在给定协方差结构的情况下实现此问题标题上引用的著名收缩方法，即最小化（也许更一般））数量（y⃗ - Xβ⃗ ）ŤV− 1（y⃗ - Xβ⃗ ）+ λ ˚F（β），（1 ）（ÿ→-Xβ→）ŤV-1个（ÿ→-Xβ→）+λF（β），（1个）(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1) 而不是通常的这主要是由于以下事实：在我的特定应用中，我们对具有不同的方差（有时甚至可以估算出协方差结构），我很乐意将其包括在内他们在回归。我这样做是为了进行岭回归：至少通过在Python / C中实现它，我发现系数追踪的路径存在重要差异，这在比较两种情况下的交叉验证曲线时也很明显。（y⃗ - Xβ⃗ ）（y⃗ - Xβ⃗ ）+ λ ˚F（β）。（2 ）（ÿ→-Xβ→）（ÿ→-Xβ→）+λF（β）。（2）(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2)ÿ⃗ ÿ→\vec{y} 我现在准备尝试通过最小角度回归来实现LASSO，但是为了做到这一点，我必须首先证明，当最小化而不是时，其所有不错的属性仍然有效。到目前为止，我还没有看到任何能真正完成所有这些工作的工作，但是一段时间前，我还读了一句话，上面写着“ 那些不知道统计数字的人注定要重新发现它 …

11 lasso ridge-regression

3

在LASSO模型中选择的合理性如何，以便产生一个人们想要的非零预测变量数？

当我通过交叉验证确定我的lambda时，所有系数都变为零。但是我从文献中得到一些暗示，一些预测因素肯定会影响结果。随意选择lambda以使稀疏性与人们所希望的一样多是垃圾吗？我想从135个Cox模型中选择前10个左右的预测变量，不幸的是效果的大小很小。

11 lasso

4

套索通过坐标下降进行拟合：开源实现？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。去年关闭。那里有什么开源实现-无论哪种语言-都可以通过坐标下降来计算套索正则化路径以进行线性回归？到目前为止，我知道：全球网 scikits.learn 还有其他东西吗？

11 regression lasso regularization

4

如何处理缺失值，以便为使用LASSO进行特征选择准备数据？

我的情况：小样本数量：116 二元结果变量解释变量的长列表：44 解释变量并非来自我的头上；他们的选择基于文献。样本中的大多数情况和大多数变量的值都缺失。选择特征的方法：LASSO R的glmnet程序包不允许我运行glmnet例程，这显然是由于我的数据集中缺少值。似乎有多种方法可以处理丢失的数据，所以我想知道： LASSO是否对我可以使用的估算方法施加任何限制？插补方法的最佳选择是什么？理想情况下，我需要一种可以在SPSS（最好）或R上运行的方法。 UPDATE1：从下面的一些答案中可以明显看出，在考虑插补方法之前，我确实处理了一些更基本的问题。我想在此添加新的问题。在回答中建议将其编码为常数值并创建一个新变量，以处理“不适用”值和组套索的用法：您是否可以说，如果我使用组LASSO，我将能够对连续预测变量和分类预测变量使用建议的方法？如果是这样，我认为这相当于创建一个新类别-我很警惕这可能会带来偏差。有人知道R的glmnet软件包是否支持组LASSO吗？如果没有，有人会建议将逻辑回归与之结合的另一种方法吗？在CRAN资料库中可以找到提及LASSO组的几个选项，最适合我的情况的建议是什么？也许是SGL？这是我的上一个问题（如何从我的原始长列表中选择变量的子集以执行逻辑回归分析？）的后续文章。 OBS：我不是统计学家。

11 r spss lasso data-imputation

2

软阈值与套索惩罚

我正在尝试总结到目前为止在使用高维数据集进行的惩罚性多元分析中所了解的内容，但我仍然在努力获得正确的软阈值与Lasso（或）惩罚的定义方面遇到困难。L1L1L_1 更准确地说，我使用稀疏PLS回归分析包括基因组数据的2块数据结构（单核苷酸多态性，其中我们将次等位基因的频率在{0,1,2}范围内，视为数值变量）和连续表型（量化人格特征或脑不对称性的得分，也视为连续变量）。这个想法是要找出最有影响力的预测因子（这里是DNA序列的遗传变异）来解释个体之间的表型变异。我最初使用mixOmics R包（以前integrOmics），该包具有受罚的PLS回归和正则化的CCA。查看R代码，我们发现预测变量中的“稀疏性”只是通过选择第个分量（算法为）上具有最高负载（绝对值）的前变量来诱发的是迭代的并且计算组件上的变量负载，在每次迭代时缩小预测变量块，有关概述，请参见稀疏PLS：集成Omics数据时的变量选择）。相反，S。Keleş与他人合着了spls软件包（请参见i i = 1 ，... ，k k L 1kkkiiii=1,…,ki=1,…,ki=1,\dots, kkkk稀疏偏最小二乘回归的同时降维和变量选择，对于这些作者所采取的方式）实现一个更加正式的描述 -penalization变量处罚。L1L1L_1 在我看来，在基于软阈值的迭代特征选择和正则化之间是否存在严格的“双射”并不明显。所以我的问题是：两者之间是否存在数学联系？L1L1L_1 参考文献 Chun，H.和Kelȩs，S.（2010），稀疏偏最小二乘用于同时减少维数和变量选择。皇家统计学会：B系列，72，3-25。 Le Cao，K.-A.，Rossoou，D.，Robert-Granie，C.和Besse，P.（2008年），《整合Omics数据时用于变量选择的稀疏PLS》。在遗传学和分子生物学统计应用程序，7，第35条。

11 multivariate-analysis lasso feature-selection genetics

2

能够

如果 β∗= 一个ř 克中号我Ñβ∥ ÿ- Xβ∥22+ λ ∥ β∥1个β∗=一个[RG米一世ñβ‖ÿ-Xβ‖22+λ‖β‖1个\beta^*=\mathrm{arg\,min}_{\beta} \|y-X\beta\|^2_2+\lambda\|\beta\|_1，能够 ∥ β∗∥2‖β∗‖2\|\beta^*\|_2 增加时间 λλ\lambda 增加？我认为这是可能的。虽然∥ β∗∥1个‖β∗‖1个\|\beta^*\|_1 何时不增加 λλ\lambda增加（我的证明），∥ β∗∥2‖β∗‖2\|\beta^*\|_2可以增加。下图显示了一种可能性。什么时候λλ\lambda 增加，如果 β∗β∗\beta^* 从（线性）行进 PPP 至问问Q，然后 ∥ β∗∥2‖β∗‖2\|\beta^*\|_2 增加而 ∥ β∗∥1个‖β∗‖1个\|\beta^*\|_1减少。但是我不知道如何构造一个具体的例子（即XXX 和 ÿÿy），这样 β∗β∗\beta^*证明这种行为。有任何想法吗？谢谢。

11 lasso

1

与之间的LASSO关系

我对LASSO回归的理解是选择回归系数来解决最小化问题：分β∥ ÿ- Xβ∥22 s 。Ť 。∥ β∥1个≤ 吨分β‖ÿ-Xβ‖22 s。Ť。‖β‖1个≤Ť\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t 实际上，这是使用拉格朗日乘数来完成的，从而可以解决问题分β∥ ÿ- Xβ∥22+ λ ∥ β∥1个分β‖ÿ-Xβ‖22+λ‖β‖1个\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 λλ\lambda和t是什么关系ŤŤt？维基百科无奈地简单地指出“依赖于数据”。我为什么在乎？首先是出于求知欲。但是我也担心通过交叉验证选择\ lambda的后果λλ\lambda。具体来说，如果我要进行n倍交叉验证，则可以将n个不同的模型拟合到我的训练数据的n个不同分区中。然后，针对给定的\ lambda，在未使用的数据上比较每个模型的准确性λλ\lambda。但是相同的\ lambda对数据的不同子集λλ\lambda意味着不同的约束（ŤŤt）（即t = f（λ ）Ť=F（λ）t=f(\lambda)是“数据相关的”）。我不是真的要解决交叉验证问题，以找到能够提供最佳偏差精度折衷方案的ŤŤt吗？通过为每个交叉验证拆分和\ lambda计算\ | \ beta \ | …

10 optimization lasso regularization lagrange-multipliers

Questions tagged «lasso»