Questions tagged «regularization»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

3
使用GLMNET还是LARS计算LASSO解决方案?
我想获得LASSO问题的系数 | | ÿ- Xβ| | +λ | | β| |1个。||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 问题是glmnet和lars函数给出不同的答案。对于glmnet函数,我要求的系数。| Y | | 而不只是,但我仍然得到不同的答案。λ / | | ÿ| |λ/||Y||\lambda/||Y||λλ\lambda 这是预期的吗?lars和glmnet之间是什么关系?我知道glmnet解决LASSO问题的速度更快,但是我想知道哪种方法更强大?λλλ\lambdaλλ\lambda deps_stats恐怕我的数据集太大,以至于LARS无法处理它,而另一方面glmnet可以处理我的大型数据集。 mpiktas我想找到(Y-Xb)^ 2 + L \ sum | b_j |的解决方案 但是,当我从两种算法(拉尔斯和glmnet)询问它们对于特定L的计算系数时,我得到了不同的答案……我想知道这是正确的/预期的吗?或者我只是为两个函数使用了错误的lambda。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。


1
系数路径–岭,套索和弹性净回归的比较
我想比较使用脊线,套索和弹性网选择的模型。下图显示了使用所有三种方法的系数路径:山脊(图A,alpha = 0),套索(图B; alpha = 1)和弹性网(图C; alpha = 0.5)。最佳解决方案取决于所选的lambda值,该值是基于交叉验证选择的。 查看这些图时,我希望弹性网(图C)表现出分组效应。然而,目前情况尚不清楚。套索和弹性网的系数路径非常相似。这可能是什么原因?这仅仅是编码错误吗?我在R中使用了以下代码: library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net …


2
什么是规则和正则化?
在学习机器学习时,我越来越多地听到这些话。实际上,有人在方程正则性方面获得了菲尔兹奖。因此,我想这是一个从统计物理/数学到机器学习的术语。当然,我问的很多人都无法直观地解释它。 我知道诸如dropout之类的方法有助于正则化(=>他们说它减少了过度拟合,但是我真的不明白这是什么:如果仅减少过度拟合,为什么不只称其为anti-overfit方法=>我想的更多,因此这个问题)。 如果您能解释一下,我将非常感激(我想天真的ML社区也将如此!) 您如何定义规律性?什么是规律性? 正则化是确保规律性的一种方法吗?即捕获规律? 为什么像dropout这样的集合方法,归一化方法都声称要进行正则化? 为什么这些(正则性/正则化)出现在机器学习中? 非常感谢你的帮助。

5
递归(在线)正则化最小二乘算法
谁能指出我的Tikhonov正则化(正则化最小二乘)在线(递归)算法的方向吗? 在离线环境,我将计算β = (X Ť X + λ我)- 1 X Ť ÿ使用在我的原始数据集λ是使用n重交叉验证中发现。一个新的ÿ值可以预测对于给定的X使用Ŷ = X Ť β。β^= (XŤX+ λ我)− 1XŤÿβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYλλλÿyyXxxÿ= xŤβ^y=xTβ^y=x^T\hat\beta 在在线设置中,我不断绘制新的数据点。如何更新β当我绘制新的额外的数据样本不会对整个数据集做了充分的重新计算(原件+新)?β^β^\hat\beta

2
模型选择或正则化后的GLM
我想分两个部分提出这个问题。两者都处理广义线性模型,但是前者处理模型选择,而其他则处理正则化。 背景:我利用GLM(线性,逻辑,伽马回归)模型进行预测和描述。当我提到“ 正常情况下,人们会做回归 ”时,我主要是指这样的描述:(i)系数周围的置信区间,(ii)预测周围的置信区间和(iii)与系数线性组合有关的假设检验,例如“是治疗A和治疗B有什么区别?”。 您是否在以下每种情况下使用正常理论合理地丧失了做这些事情的能力?如果是这样,这些事情真的只对用于纯预测的模型有用吗? I.当通过某种模型选择过程拟合了GLM时(具体来说,它是基于AIC的逐步过程)。 二。通过正则化方法拟合GLM时(例如在R中使用glmnet)。 我的感觉是,对我来说,答案是技术上来说,您应该对“ 使用回归进行的正常操作 ”使用引导程序,但是没有人真正遵守。 添加: 在收到一些答复并在其他地方阅读后,这是我的看法(对其他人有益并能得到纠正)。 I. A)RE:错误概括。为了概括新数据的错误率,在没有保留集的情况下,可以进行交叉验证,但是您需要为每个折叠完全重复该过程-使用嵌套循环-因此必须进行任何功能选择,参数调整等。每次独立完成。这个想法应该适用于任何建模工作(包括惩罚方法)。 B)RE:假设检验和GLM的置信区间。当对广义线性模型使用模型选择(特征选择,参数调整,变量选择)并且存在保留集时,可以在分区上训练模型,然后将模型拟合到其余数据或完整数据集上并使用该模型/数据执行假设检验等。如果不存在保留集,则可以使用引导程序,只要对每个引导程序样本重复完整的过程即可。但这限制了可以进行的假设检验,因为例如可能不一定总是选择一个变量。 C)RE:不对未来数据集进行预测,然后在理论和一些假设检验的指导下,建立一个有目的的模型,甚至考虑在模型中保留所有变量(无论是否有意义)(沿Hosmer和Lemeshow的思路)。这是回归模型的小变量集经典类型,然后允许使用CI和假设检验。 D)RE:惩罚回归。没有建议,也许认为这仅适合于预测(或作为特征选择的一种,然后应用于上述B中的另一数据集),因为引入的偏差使CI和假设检验变得不明智-即使使用自举。


4
是什么导致套索对于特征选择不稳定?
在压缩感知中,有一个定理保证 具有唯一的稀疏解c(有关更多详细信息,请参见附录)。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 套索有类似的定理吗?如果有这样一个定理,那么它不仅可以保证套索的稳定性,而且还可以为套索提供更有意义的解释: 套索可以发现稀疏回归系数向量ccc,该向量用于通过y = Xc生成响应y。yyyy=Xcy=Xcy = Xc 我问这个问题有两个原因: 我认为“套索偏爱稀疏解决方案”并不能解决为什么使用套索进行特征选择的问题,因为我们甚至无法分辨选择特征的优势。 我了解到套索因功能选择不稳定而臭名昭著。在实践中,我们必须运行引导程序样本以评估其稳定性。导致这种不稳定的最关键原因是什么? 附录: 给定XN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)。ccc是ΩΩ\Omega稀疏向量(Ω⩽MΩ⩽M\Omega \leqslant M)。过程y=Xcy=Xcy = Xc生成响应yyy。如果XXX具有\ Omega阶的NSP(零空间属性),ΩΩ\Omega并且X的协方差矩阵的XXX特征值都不接近零,则 argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y …

1
了解负岭回归
我正在寻找有关负脊回归的文献。 总之,它是用负线性岭回归的一般化λλ\lambda的估计公式β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.肯定的案例有一个很好的理论:作为损失函数,作为约束,作为贝叶斯先验...但我仅凭上述公式感到对否定版本感到迷惑。它恰好对我正在做的事情有用,但是我无法清楚地解释它。 您是否了解有关负山脊的严肃入门文字?如何解释?


2
为什么ridge回归不能提供比LASSO更好的解释性?
我已经对ridge回归和LASSO的利弊有了一个想法。 对于LASSO,L1惩罚项将产生稀疏系数矢量,可以将其视为特征选择方法。但是,LASSO有一些限制。如果特征具有高度相关性,则LASSO将仅选择其中之一。此外,对于 >问题,LASSO将最多选择参数(和分别是观测值和参数的数量)。与岭回归相比,就可预测性而言,这些经验使LASSO成为次优方法。Ñ Ñ Ñ ppppnnnnnnnnnppp 对于岭回归,通常可以提供更好的可预测性。但是,它的可解释性不如LASSO。 上面的解释通常可以在机器学习/数据挖掘的教科书中找到。但是,我仍然对两件事感到困惑: 如果我们对特征范围进行归一化(例如,介于0和1之间,或者均值和单位方差为零),并进行岭回归,则仍可以通过对系数的绝对值进行排序来了解特征的重要性(最重要的特征具有系数的最大绝对值)。尽管我们没有明确选择功能,但使用ridge回归并不会丧失可解释性。同时,我们仍然可以实现较高的预测能力。那为什么我们需要LASSO?我在这里想念什么吗? LASSO是否因其特征选择特性而被首选?据我了解,我们之所以需要特征选择,是因为它具有泛化能力和易于计算的能力。 为了简化计算,如果我们要执行某些NLP任务,我们不想将所有一百万个特征都馈入模型,因此我们首先删除一些显然无用的特征以降低计算成本。但是,对于LASSO,只有在将所有数据输入模型后才能知道特征选择结果(稀疏矢量),因此就降低计算成本而言,我们没有从LASSO中受益。我们只能更快地进行预测,因为现在我们仅将特征子集(例如一百万个中的500个)馈入模型以生成预测结果。 如果LASSO因其具有泛化能力而被首选,那么我们也可以使用ridge回归(或任何其他类型的正则化)来实现相同的目标。为什么我们再次需要LASSO(或弹性网)?为什么我们不能只坚持岭回归? 有人可以请问一下吗?谢谢!

1
在LASSO中为正则化参数选择范围和网格密度
同时,我正在学习LASSO(最小绝对收缩和选择算子)。我看到可以通过交叉验证来选择正则化参数的最佳值。我还看到在岭回归和应用正则化的许多方法中,我们可以使用CV来找到最佳正则化参数(说惩罚)。现在我的问题是关于参数上限和下限的初始值以及如何确定序列的长度。 具体来说,假设我们有一个LASSO问题 ,我们想找到惩罚的最佳值。那么我们如何为选择下界和上限?以及这两个值之间有多少分割?LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1 λλ\lambdaλ∈[a=?,b=?]λ∈[a=?,b=?]\lambda \in [a=?,b=?](b−a)k=?(b−a)k=?\frac{(b-a)}{k=?}


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.