Questions tagged «lasso»

回归模型的正则化方法将系数缩小为零,使其中一些等于零。因此套索执行特征选择。

3
如何使用> 50K变量估算套索或岭回归中的收缩参数?
我想对超过50,000个变量的模型使用套索或岭回归。我想使用R中的软件包来执行此操作。如何估算收缩率参数()?λλ\lambda 编辑: 这是我要提出的要点: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 我的问题是:我怎么知道哪个最适合我的模型?λλ\lambda

2
如果仅对预测感兴趣,为什么在山脊上使用套索?
在《统计学习入门》的第223页中,作者总结了岭回归和套索之间的区别。他们提供了一个示例(图6.9),其中“套索在偏见,方差和MSE方面倾向于胜过岭回归”。 我知道为什么套索是可取的:因为它会将许多系数缩小到0,所以结果很稀疏,从而导致模型简单易懂。但是我不明白当仅对预测感兴趣时,它如何能胜过岭(即,在示例中,它如何获得显着更低的MSE?)。 使用ridge时,如果许多预测变量对响应几乎没有影响(少数预测变量产生很大影响),它们的系数不会简单地缩小到非常接近零的小数目...导致与套索非常相似?那么,为什么最终模型的性能会比套索差?


1
L1正则化的回归与套索是否相同,L2正则化的回归与岭回归是否相同?以及如何写“套索”?
我是一名学习机器学习的软件工程师,尤其是通过Andrew Ng的机器学习课程学习机器学习。在研究带有正则化的线性回归时,我发现令人困惑的术语: 使用L1正则化或L2正则化进行回归 套索 岭回归 所以我的问题是: L1正则化的回归与LASSO完全相同吗? L2正则化的回归与Ridge回归完全相同吗? LASSO是如何写作的?应该是“ LASSO回归”吗?我见过类似“ 套索更合适 ”的用法。 如果以上1和2的答案是“是”,那么为什么这两个术语有不同的名称?“ L1”和“ L2”是否来自计算机科学/数学,而“ LASSO”和“ Ridge”是否来自统计? 当我看到类似以下内容的帖子时,这些术语的使用会造成混淆: “ L1和L2正则化有什么区别? ”(quora.com) “ 什么时候应该使用套索vs岭? ”(stats.stackexchange.com)


3
是否可以为套索回归模型计算AIC和BIC?
是否可以为套索回归模型和其他正则化模型(参数仅部分进入方程式)计算AIC或BIC值。如何确定自由度? 我正在使用R将套索回归模型与程序包中的glmnet()函数进行拟合glmnet,并且我想知道如何计算模型的AIC和BIC值。通过这种方式,我可以将值与没有正则化的模型拟合进行比较。这可能吗?
31 r  model-selection  lasso  aic  bic 


3
是否为LASSO重新调整指标/二进制/虚拟预测值
对于LASSO(和其他模型选择程序),重新调整预测变量至关重要。我遵循的一般 建议 是对连续变量使用0均值,1标准差归一化。但是假人有什么关系呢? 例如,来自同一所(优秀)暑期学校的一些应用示例,我将其连续变量的比例调整为0到1(尽管离群值并不大),可能与假人相当。但是,即使那样也不能保证系数应该在相同的数量级上,并因此受到类似的惩罚,这是重新缩放的主要原因,不是吗?

2
用正则化或罚分拟合ARIMAX模型(例如,套索,弹性网或岭回归)
我在预测包中使用了auto.arima()函数来拟合具有各种协变量的ARMAX模型。但是,我经常有很多变量可供选择,并且通常最终得到一个最终模型,该模型可以使用其中的一个子集。我不喜欢用于变量选择的临时技术,因为我是人类并且容易受到偏见的影响,但是交叉验证时间序列比较困难,因此我没有找到一种自动尝试可用变量的不同子集的好方法,并且我无法根据自己的最佳判断来调整模型。 当我拟合glm模型时,可以通过glmnet软件包使用弹性网或套索进行正则化和变量选择。R中是否存在用于在ARMAX模型上使用弹性网的现有工具包,还是我必须自己开发?这是个好主意吗? 编辑:手动计算AR和MA项(例如,直到AR5和MA5)并使用glmnet拟合模型是否有意义? 编辑2:看来,FitAR软件包使我受益匪浅,但并非全部。

1
为什么我得出的封闭套索解决方案不正确?
套索问题具有封闭形式的解决方案:\ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS }} |-\\ alpha)^ +( 如果X具有正交列)。这在以下线程中得到了证明:封闭形式套索解决方案的派生。β 套索 Ĵ = 小号克Ñ(β LS Ĵ)(| β LS Ĵ | - α )+ Xβlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= …

2
拉索之前的标准化真的有必要吗?
我已经了解了在进行诸如Lasso回归之类的操作之前标准化变量的三个主要原因: 1)系数的可解释性。 2)能够根据收缩后系数估计值的相对大小对系数重要性进行排名。 3)无需拦截。 但是我想知道最重要的一点。我们是否有理由认为标准化会改善模型的样本外推广?而且我不在乎我是否不需要模型中的拦截器。加一个不会伤害我。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 



3
为什么对套索识别的变量子集使用套索估计而不是OLS估计?
对于套索回归假设最佳解决方案(例如最小测试误差)选择了k个特征,这样\ hat {\ beta} ^ {lasso} = \ left(\ hat {\ beta} _1 ^ {lasso},\ hat {\ beta} _2 ^ {lasso},...,\ hat {\ beta} _k ^ {lasso},0,... 0 \ right)。L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) 我们知道(β^lasso1,β^lasso2,...,β^lassok)(β^1lasso,β^2lasso,...,β^klasso)\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)是一个\ left(\ beta_1,\ beta_2,...,\ beta_k \ right)的估计值有偏差(β1,β2,...,βk)(β1,β2,...,βk)\left(\beta_1,\beta_2,...,\beta_k\right),所以为什么我们仍将β^lassoβ^lasso\hat{\beta}^{lasso}作为最终解决方案,而不是更“合理的” β^new=(β^new1:k,0,...,0)β^new=(β^1:knew,0,...,0)\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right),其中β^new1:kβ^1:knew\hat{\beta}_{1:k}^{new}是部分模型Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)。(X1:kX1:kX_{1:k}表示与k个所选要素相对应的X列)。XXXkkk 简而言之,为什么我们同时将Lasso用于特征选择和参数估计,而不是仅用于变量选择(并将选定特征的估计留给OLS)? (此外,“套索最多可以选择nnn特征” 是什么意思?nnn是样本大小。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.