Questions tagged «regularization»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

1
需要回归中的数据居中和标准化
考虑采用某种正则化的线性回归:例如,找到使| |最小的。| A x − b | | 2 + λ | | x | | 1个xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常,将A的列标准化为具有零均值和单位范数,而的中心为具有零均值。我想确定我对标准化和居中原因的理解是否正确。bbb 通过使和b列的均值为零,我们不再需要拦截项。否则,目标将是| | A x − x 0 1 − b | | 2 + λ | | x | | 1。通过使A的列的范数等于1,我们消除了仅由于A的一列具有很高的范数而在x中获得较低系数的情况的可能性,这可能导致我们错误地得出结论: A不能很好地“解释” x。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx 这种推理并不严格,而是凭直觉,这是正确的思维方式吗?

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
为什么L2范数损失有唯一的解决方案,而L1范数损失可能有多个解决方案?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ 如果您查看这篇文章的顶部,那么作者会提到L2规范具有唯一的解决方案,而L1规范可能具有很多解决方案。我从正则化的角度理解了这一点,但从在损失函数中使用L1范数或L2范数的角度理解。 如果查看标量x(x ^ 2和| x |)的函数图,则可以很容易地看到两者都有一个唯一的解决方案。

2
为什么收缩真正起作用,0有什么特别之处?
该网站上已经有一篇文章谈论同一问题: 收缩为什么起作用? 但是,即使答案很流行,我也不认为这个问题的实质能够真正解决。很明显,在估计中引入一些偏差会导致方差减少,并可能提高估计质量。然而: 1)为什么引入偏差造成的损害要比方差获得的损害少? 2)为什么它总是可以工作?例如,在岭回归的情况下:存在定理 3)0(原点)有什么有趣的地方?显然,我们可以缩小到我们喜欢的任何位置(例如Stein estimator),但是它能像原点一样工作吗? 4)为什么各种通用编码方案更喜欢原点周围的位数较少?在这些假设只是更可能? 期望参考已证明的定理或确定的结果进行回答。

1
ARIMA模型的正则化
我知道线性回归模型中的LASSO,山脊和弹性网正则化类型。 题: 可以将这种(或类似的)惩罚估计应用于ARIMA建模(具有非空MA部分)吗? pmaxpmaxp_{max}qmaxqmaxq_{max} q ⩽ q 米一个Xp⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 我的其他问题是: 我们是否可以包括(,)之前的所有项,但是会惩罚系数的大小(可能一直到零)?那有道理吗? q 中号一个Xpmaxpmaxp_{max}qmaxqmaXq_{max} 如果可以,是否已在R或其他软件中实现?如果没有,那是什么麻烦? 一些相关的帖子可以在这里找到。


3
在线学习中的正则化和功能扩展?
假设我有一个逻辑回归分类器。在正常的批处理学习中,我会使用正则化项来防止过度拟合并保持较小的体重。我还将规范化和缩放我的功能。 在在线学习环境中,我获得了连续的数据流。我对每个示例都进行了梯度下降更新,然后将其丢弃。我应该在在线学习中使用特征缩放和正则化术语吗?如果是,我该怎么办?例如,我没有一组可用于扩展的训练数据。我也没有设置验证来调整我的正则化参数。如果没有,为什么不呢? 在我的在线学习中,我不断获得大量示例。对于每个新示例,我都会做一个预测。然后在下一个时间步骤中,我得到了实际目标并进行了梯度下降更新。

1
在套索中给出0分量的最小
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n 我们知道,对于,套索估计\ hat \ beta ^ \ lambda = 0。(例如,请参阅Lasso和Ridge调整参数范围。)用另一种表示法表示\ lambda_ \ max = \ frac {1} {n} \ | X ^ T y \ | _ \ infty。请注意,\ lambda_ …


1
JAGS中的正则贝叶斯逻辑回归
有许多数学方面的文章描述了贝叶斯套索,但是我要测试可以使用的正确JAGS代码。 有人可以发布实现正则逻辑回归的示例BUGS / JAGS代码吗?任何方案(L1,L2,Elasticnet)都不错,但是Lasso是首选。我也想知道是否有有趣的替代实施策略。


4
规范什么特别之处?
一个规范是唯一的(至少部分),因为是在间非凸和凸的边界。一个范数是“最稀疏”凸模(右?)。 p = 1 L 1L1L1L_1p=1p=1p=1L1L1L_1 我了解欧几里得范数源于几何,当维数具有相同单位时,它具有清晰的解释。但是我不明白为什么它优先于其他实数:?吗?为什么不将整个连续范围用作超参数?p > 1 p = 1.5 p = πp=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi 我想念什么?

1
数据矩阵为对角线时套索问题的闭式解
\newcommand{\diag}{\operatorname{diag}}我们遇到了问题:\ min_ {w \ in \ mathbb {R} ^ {d}} \ left(\ frac {1} {n} \ sum_ {i = 1} ^ {n} \ left(\ langle w,x_ {i} \ rangle-y_ {i} \ right)^ {2} +2 \ lambda || w || _1 \ right),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), 并假设:∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). 在这种情况下是否有封闭形式的解决方案? …

1
防止在小数据集上过拟合LSTM
我正在对15000条推文进行建模,以使用具有128个隐藏单元的单层LSTM(使用类似于word2vec的表示形式,具有80个维度)来进行情感预测。1个纪元后,我获得了下降精度(38%,随机= 20%)。随着训练准确性的提高,更多的训练使验证准确性开始下降-这是过度拟合的明显标志。 因此,我正在考虑进行正则化的方法。我不希望减少隐藏单元的数量(128个似乎已经有点低了)。我目前以50%的概率使用辍学率,但这可能会增加。优化器是Adam,具有Keras的默认参数(http://keras.io/optimizers/#adam)。 有什么有效的方法可以减少我的数据集对此模型的过度拟合?

1
偏差方差分解
在Bishop的模式识别和机器学习的 3.2节中,他讨论了偏差方差分解,指出对于平方损失函数,预期损失可以分解为平方偏差项(它描述了平均预测与真实预测之间的距离。模型),方差项(描述了平均值周围的预测范围)和噪声项(给出了数据的固有噪声)。 可以使用除平方损失以外的损失函数执行偏差方差分解吗? 对于给定的模型数据集,是否有多个模型的预期损失在所有模型中均是最小的,如果是这样,是否意味着可能会有不同的偏差和方差组合产生相同的最小预期损失? 如果模型涉及正则化,则偏差,方差和正则化系数之间是否存在数学关系?λλ\lambda 如果您不知道真实的模型,如何计算偏差? 在某些情况下,将偏差或方差最小化而不是预期损失(偏差和方差的平方和)更有意义吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.