Questions tagged «lasso»

回归模型的正则化方法将系数缩小为零,使其中一些等于零。因此套索执行特征选择。

1
r中套索的多元线性回归
我正在尝试创建一个简化的模型来预测许多高度相关的因变量(DV)(〜450)。 我的自变量(IV)也很多(〜2000)并且高度相关。 如果我使用套索分别为每个输出选择一个简化的模型,那么当我遍历每个因变量时,不能保证获得相同的独立变量子集。 是否有在R中使用套索的多元线性回归? 这不是组套索。套索组IV。我想要多元线性回归(意味着DV是矩阵,而不是标量的向量),它也实现套索。(注意:正如NRH所指出的,这是不正确的。组套索是一个通用术语,它包括对IV进行分组的策略,但也包括对其他参数(如DV)进行分组的策略) 我发现本文进入了所谓的稀疏重叠集套索 这是一些进行多元线性回归的代码 > dim(target) [1] 6060 441 > dim(dictionary) [1] 6060 2030 > fit = lm(target~dictionary) 这是在单个DV上执行套索的一些代码 > fit = glmnet(dictionary, target[,1]) 这就是我想做的: > fit = glmnet(dictionary, target) Error in weighted.mean.default(y, weights) : 'x' and 'w' must have the same length 一次选择适合所有目标的特征


1
LASSO用于解释性模型:参数是否缩小?
我正在进行分析,其主要目标是了解数据。数据集足够进行交叉验证(10k),并且预测变量包括连续变量和虚拟变量,并且结果是连续的。主要目标是查看踢出一些预测变量是否有意义,以使模型更易于解释。 问题: 我的问题是“哪些变量解释了结果,并且是该解释的“足够强的”部分”。但是要为套索选择lambda参数,可以使用交叉验证,即预测有效性作为准则。在进行推断时,预测效度是否足以代替我要问的一般问题? 说LASSO仅保留了8个预测变量中的3个。现在我问自己:“这些对结果有什么影响”。例如,我发现了性别差异。套索收缩后,该系数表明女性得分比男性高1分。但是没有缩水(即在实际数据集上),它们的得分高出2.5分。 我将哪一个作为我的“真实”性别效果?仅根据预测效度,它将是收缩系数。 或者说,我正在为不精通统计的人们编写报告。我要向他们报告哪个系数?

1
如何解释套索模型中排除或包含的变量?
我从其他帖子中得知,不能将“重要性”或“重要性”归因于进入套索模型的预测变量,因为计算这些变量的p值或标准差仍在进行中。 在这种推理下,断言一个人不能说套索模型中排除的变量是“无关紧要”还是“无关紧要”是正确的吗? 如果是这样,对于套索模型中排除或包含的变量,我实际上能提出什么主张?在我的特定情况下,我通过重复10次交叉验证100次来选择调整参数lambda,以减少randonmess并平均误差曲线。 UPDATE1:我遵循以下建议,并使用引导程序示例重新运行套索。我试了100个样本(这是我的计算机功能可以在一夜之间解决的数量),并且出现了一些模式。我的41个变量中的2个进入模型的次数超过95%,3个变量超过90%,5个变量超过85%。当我使用原始样本运行模型时,这5个变量属于进入模型的9个变量,是当时系数值最高的变量。如果我运行带有1000个引导程序样本的套索并且保留了这些模式,那么呈现结果的最佳方法是什么? 1000个引导程序样本听起来是否足够?(我的样本大小为116) 我是否应该列出所有变量以及它们进入模型的频率,然后认为输入频率更高的变量更有意义? 就我所能要求的范围而言吗?因为它正在进行中(请参见上文),所以我不能使用截止值,对吗? UPDATE2:根据以下建议,我计算出以下内容:平均而言,原始模型中的变量有78%进入了为100个自举样本生成的模型。另一方面,反之则只有41%。这在很大程度上与以下事实有关:为引导程序样本生成的模型往往比原始模型(9)包含更多的变量(平均17个)。 UPDATE3:如果你能帮助我解释我是从引导和蒙特卡罗模拟得到的结果,请看看这个其他职位。

1
套索配方之间的联系
这个问题可能是愚蠢的,但我注意到拉索回归有两种不同的表达方式。我们知道套索问题是最小化由平方损失加 -1惩罚项组成的目标,表示为: LLLminβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1 \min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \; 但是通常我看到套索估计量可以写成 β^n(λ)=argminβ{12n∥y−Xβ∥22+λ∥β∥1}β^n(λ)=arg⁡minβ{12n‖y−Xβ‖22+λ‖β‖1} \hat{\beta}_n(\lambda) = \displaystyle\arg \min_{\beta} \{\frac {1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \} 我的问题是,等价的吗?\ frac {1} {2n}一词从何而来?12n12n\frac {1}{2n}这两种说法之间的联系对我而言并不明显。 [更新]我想我应该问的另一个问题是, 为什么会有第二种说法?从理论上或计算上,以这种方式提出问题有什么好处?
9 lasso 

1
glmnet如何处理过度分散?
我有一个关于如何对计数数据进行文本建模的问题,尤其是如何使用该lasso技术来减少特征。 假设我有N篇在线文章以及每篇文章的综合浏览量。我为每篇文章提取了1克和2克,我想对1,2克进行回归。由于特征(1,2克)比观察的数量更多,所以套索将是减少特征数量的好方法。另外,我发现glmnet运行套索分析非常方便。 然而,网页浏览量计数的overdispersed(方差>的意思),但glmnet不提供quasipoisson(明确的),或者negative binomial,但poisson对数的数据。我想到的解决方案是对log transform计数数据(社会科学家中常用的方法)进行计数,并使响应变量大致遵循正态分布。因此,我可以使用高斯族对数据进行建模glmnet。 所以我的问题是:这样做合适吗?或者,应我只是用泊松的glmnet情况下glmnet手柄quasipoisson?还是有其他R软件包可以处理这种情况? 非常感谢你!

3
回归平滑样条曲线中等于k个分类变量的k个结的选择?
我正在研究一种预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄与住院风险之间存在很强的非线性关系: 我正在考虑针对患者年龄的惩罚性回归平滑样条。根据《统计学习的要素》(Hastie等,2009,第151页),最佳结位置是每个会员年龄的唯一值一个结。 假设我将年龄保留为整数,那么惩罚平滑样条曲线是否等效于运行带有101个不同的年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个作为参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小为零。

4
套用滞后的顺序?
假设我有形式的纵向数据(我有多个观察结果,这只是一个形式)。我对限制感兴趣。不受限制的等效于 与。Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, \sigma_j) 通常不这样做,因为它需要估计协方差参数。如果我们采用则模型为“ ” 即我们仅使用前面的项可以根据历史预测。O(J2)O(J2)O(J^2)kkkYj=αj+∑ℓ=1kϕℓjYj−ℓ+εj,Yj=αj+∑ℓ=1kϕℓjYj−ℓ+εj, Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j, …

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.