Questions tagged «regularization»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

5
Ridge&LASSO规范
这篇文章遵循以下内容:为什么通过向对角线添加一个常数,使岭估计变得比OLS好? 这是我的问题: 据我所知,岭正则化使用 -norm(欧几里德距离)。但是,为什么我们要使用此规范的平方呢?(的直接应用将 beta平方和的平方根)。ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 作为比较,对于LASSO,它不使用 -norm进行正则化。但是,这里是“真实的”范数(只是beta绝对值的平方的和,而不是该和的平方)。ℓ 1ℓ1个ℓ1\ell_1ℓ1个ℓ1\ell_1 有人可以帮我澄清一下吗?


3
如何对空间中的任意点实施L2正则化?
这是我在伊恩·古德费洛(Ian Goodfellow)的《深度学习》一书中读到的。 在神经网络的上下文中,“ L2参数范数罚则通常称为权重衰减。这种正则化策略使权重更接近原点。更普遍地,我们可以将参数正则化为任何特定点附近在空间中”,但更常见的是将模型参数调整为零。(深度学习,Goodfellow等。) 我只是好奇。我了解到,只需在成本函数中添加一个正则项,并通过使总成本最小化,就可以影响模型的参数以使其保持较小:JJJ J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} 但是,如何实现该正则化策略的一种版本,该版本会将参数引向任意点?(例如,我们希望规范趋向于5)

2
错误率是正则化参数lambda的凸函数吗?
在Ridge或Lasso中选择正则化参数lambda时,建议的方法是尝试使用不同的lambda值,测量验证集中的错误,最后选择返回最低错误的lambda值。 如果函数f(lambda)= error是凸的,这对我来说并不束手无策。会是这样吗?即,该曲线是否可以具有多个局部最小值(这意味着在lambda的某个区域中找到Error的最小值并不排除在某些其他区域中存在返回较小的Error的Lambda的可能性) 您的建议将不胜感激。

3
可以(应该)在随机效应模型中使用正则化技术吗?
通过正则化技术,我指的是套索,岭回归,弹性网等。 考虑一个包含人口统计和诊断数据的医疗保健数据预测模型,其中预测住院时间。对于某些人,在基线时间段内有多个LOS观测值(即,一个以上IP事件)相关。 例如,建立一个包含每个人随机效应拦截项的弹性净预测模型是否有意义?

4
套索通过坐标下降进行拟合:开源实现?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 那里有什么开源实现-无论哪种语言-都可以通过坐标下降来计算套索正则化路径以进行线性回归? 到目前为止,我知道: 全球网 scikits.learn 还有其他东西吗?

1
与之间的LASSO关系
我对LASSO回归的理解是选择回归系数来解决最小化问题: 分β∥ ÿ- Xβ∥22 s 。Ť 。∥ β∥1个≤ 吨分β‖ÿ-Xβ‖22 s。Ť。‖β‖1个≤Ť\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t 实际上,这是使用拉格朗日乘数来完成的,从而可以解决问题 分β∥ ÿ- Xβ∥22+ λ ∥ β∥1个分β‖ÿ-Xβ‖22+λ‖β‖1个\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 λλ\lambda和t是什么关系ŤŤt?维基百科无奈地简单地指出“依赖于数据”。 我为什么在乎?首先是出于求知欲。但是我也担心通过交叉验证选择\ lambda的后果λλ\lambda。 具体来说,如果我要进行n倍交叉验证,则可以将n个不同的模型拟合到我的训练数据的n个不同分区中。然后,针对给定的\ lambda,在未使用的数据上比较每个模型的准确性λλ\lambda。但是相同的\ lambda对数据的不同子集λλ\lambda意味着不同的约束(ŤŤt)(即t = f(λ )Ť=F(λ)t=f(\lambda)是“数据相关的”)。 我不是真的要解决交叉验证问题,以找到能够提供最佳偏差精度折衷方案的ŤŤt吗? 通过为每个交叉验证拆分和\ lambda计算\ | \ beta \ | …


1
套索如何随设计矩阵大小缩放?
如果我有一个设计矩阵,其中Ñ是尺寸的观察次数d,什么是求解的复杂性β = argmin β 1X∈ [Rn × dX∈[Rn×dX\in\mathcal{R}^{n\times d}ññnddd与LASSO,wrtn和d?我认为答案应该是关于一个LASSO迭代如何使用这些参数缩放,而不是迭代次数(收敛)如何缩放,除非您另有感觉。β^=argminβ1个2 n| |Xβ-y| |2+ λ | |β| |1个β^=精氨酸β1个2ñ||Xβ-ÿ||2+λ||β||1个\hat{\beta}=\text{argmin}_{\beta}\frac{1}{2n} ||X\beta-y||^{2} + \lambda||\beta||_{1}nñnddd 我已经阅读了以前的LASSO复杂性问题,但似乎与此处和此处有关glmnet的讨论不一致。我知道那里有很多算法,包括glmnet的GLM方法,但是我正在写一篇有关将LASSO组件替换为父算法的论文,并且希望包括关于LASSO复杂性的讨论,特别是和n。我也想知道在基本的非稀疏情况下glmnet的复杂性,但是由于整个算法的复杂性不是很明确,因此参考文献有些令人困惑。dddnnn

3
统计人员说我们不太了解LASSO(正则化)的工作原理是什么意思?
我最近去过一些关于套索(正则化)的统计讨论,并且不断出现的一点是,我们并不真正了解套索为什么起作用或为什么这么好。我想知道这句话指的是什么。显然,我理解了套索为什么通过防止参数缩小来防止过度拟合而在技术上起作用的原因,但是我想知道这样的声明背后是否还有更深层的含义。有人有什么想法吗?谢谢!

1
使用通用优化器复制glmnet线性回归的结果
如标题所示,我正在尝试使用来自library的LBFGS优化器从g​​lmnet linear复制结果lbfgs。只要我们的目标函数(没有L1正则化项)是凸的,此优化器就可以让我们添加L1正则化项,而不必担心可微性。 glmnet纸中的弹性净线性回归问题由 其中X \ in \ mathbb {R} ^ {n \ times p}是设计矩阵,y \ in \ mathbb {R} ^ p是观测向量,\ alpha \ in [0,1]是弹性网参数,而\ lambda> 0是正则化参数。运算符\ Vert x \ Vert_p表示通常的Lp范数。 X∈[RÑ×pý∈[Rpα∈[0,1]λ>0‖X‖p分β∈ [Rp1个2 n∥ β0+ Xβ- ÿ∥22+ α λ ∥ β∥1个+ 12(1 - α )λ ∥ β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert …

4
随机矩阵的稀疏诱导正则化
众所周知(例如在压缩感测领域),范数是“稀疏诱导的”,即如果我们最小化函数(对于固定矩阵A和向量→ b)f A ,→ b(→ X)= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0,我们很可能为很多选择甲,→ bL1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b},和在结果→ x中具有许多完全为零的条目。λλ\lambdax⃗ x→\vec{x} 但是,如果我们最小化受该的条目的状态→ X为正,而总和到1,然后将大号1术语不具有任何影响(因为‖ → X ‖ 1 = 1通过法令)。在这种情况下,是否存在一个类似的L 1型正则化函数可以起作用,以鼓励生成的→ x稀疏?fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥ X⃗ ∥1个= 1‖x→‖1=1\|\vec{x}\|_1=1大号1个L1L_1X⃗ x→\vec{x}

2
正则化
执行正则化的方法有很多- 例如基于,L 1和L 2范数的正则化。根据Friedman Hastie和Tibsharani的说法,最佳正则化器取决于问题:即真正目标函数的性质,所使用的特定基础,信噪比和样本大小。大号0L0L_0大号1个L1L_1大号2L2L_2 是否有任何比较方法和各种正则化方法性能的实证研究?

4
正则化:为什么要乘以1 / 2m?
在吴安德(Andrew Ng)的Coursera机器学习课程的第3周讲义中,费用函数中添加了一个术语以实现正则化: J+(θ)=J(θ)+λ2m∑j=1nθ2jJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 讲义说: 我们还可以将所有theta参数归一化: minθ 12m [∑i=1m(hθ(x(i))−y(i))2+λ ∑j=1nθ2j]minθ 12m [∑i=1m(hθ(x(i))−y(i))2+λ ∑j=1nθj2]min_\theta\ \dfrac{1}{2m}\ \left[ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum_{j=1}^n \theta_j^2 \right] 12m12m\frac 1 {2m}稍后应用于神经网络的正则化项: 回想一下正则逻辑回归的成本函数为: Ĵ(θ )= − 1米∑我= 1米[ y(我) 日志(^ hθ(x(我)))+ (1 − y(我))日志 (1 - ħθ(x(我)))]+λ2m∑j=1nθ2jJ(θ)=−1m∑i=1m[y(i) log⁡(hθ(x(i)))+(1−y(i)) log⁡(1−hθ(x(i)))]+λ2m∑j=1nθj2J(\theta) = …

1
具有L2正则化的RNN停止学习
我使用双向RNN来检测不平衡事件的发生。积极的阶层比消极的阶层少100倍。尽管不使用正则化,但我可以在训练集上获得100%的准确性,在验证集上获得30%的准确性。我启用了l2正则化,结果在训练集上的准确度也只有30%,而不是更长的学习,而在验证集上的准确度是100%。 我当时以为我的数据可能太小了,所以只是为了进行实验,我将训练集与以前未使用的测试集合并了。情况与我使用l2正则化的情况相同,而我现在没有。我在训练+测试和验证中获得了30%的准确性。 在提到的实验中使用128个隐藏单元和80个时间步长当我将隐藏单元的数量增加到256个时,我可以再次在Train + Test Set上过拟合以达到100%的准确性,但在验证组上仍然只有30%。 我确实为超参数尝试了很多选项,但几乎没有结果。可能是加权的交叉熵引起了问题,在给定的实验中,正类的权重为5。尝试更大的权重时,结果的准确性通常会降低20%左右。 我尝试了LSTM和GRU细胞,没有区别。 我得到的最好的结果。我尝试了2个具有256个隐藏单元的隐藏层,这花了大约3天的计算时间和8GB的GPU内存。在进行l2正则化时,我再次获得了40-50%的准确度,然后又开始过度拟合,但强度不高。 我使用的是Adam优化器,其他的则效果不佳。我拥有的功能就足够了,因为在使用状态机时,我可以获得90%的精度。在该状态机中,主要特征是基于其他特征属性进行求和和阈值处理,并且其可变长度有时为10,有时为20,涉及该特征的时间戳。 在这种情况下,有一些一般性准则可以做什么?我什么都找不到。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.