Questions tagged «regularization»

在模型拟合过程中包括其他约束(通常是复杂性的代价)。用于防止过度拟合/提高预测准确性。

2
时“单位方差”岭回归估计的极限
考虑带有附加约束的岭回归,该约束要求具有单位平方和(等效于单位方差);如果需要,可以假定也具有单位平方和: ÿy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ infty时\ hat {\ boldsymbol \ beta} _ \ lambda ^ *的限制是多少?β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下是一些我认为是正确的声明: 当λ=0λ=0\lambda=0,有一个整洁的显式解决方案:采用OLS估计器β^0= (X⊤X )− 1X⊤ÿβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y并对其进行归一化以满足约束(可以通过添加Lagrange乘数并进行微分来查看此约束): β^∗0= β^0/ ∥X β^0∥ 。β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = …

2
置信区间的覆盖范围以及常规估计
假设我正在尝试使用某种正则化估计从一些高维数据中估计大量参数。正则化器在估计中引入了一些偏差,但这仍然是一个很好的权衡,因为方差的减少应足以弥补这一不足。 当我想估计置信区间时(例如使用拉普拉斯逼近法或自举法),问题就来了。具体来说,我的估算偏差会导致我的置信区间覆盖不良,这使得难以确定我的估算器的频繁性。 我已经找到了一些讨论此问题的论文(例如“基于Edgeworth展开的岭回归中的渐近置信区间”),但是数学大多超出了我的理解。在链接的论文中,方程式92-93似乎为通过岭回归进行正则化的估计值提供了校正因子,但我想知道是否存在适用于一系列不同正则化器的良好程序。 即使是一阶校正也将非常有帮助。


5
使用正则化算法时,我们仍然需要进行特征选择吗?
关于运行统计学习算法之前是否需要使用特征选择方法(随机森林特征重要性值或单变量特征选择方法等),我有一个问题。 我们知道,为避免过度拟合,我们可以对权重向量引入正则化惩罚。 因此,如果要进行线性回归,则可以引入L2或L1甚至弹性网正则化参数。为了获得稀疏解,L1惩罚有助于特征选择。 然后,是否仍需要在运行L1正则化或回归(例如Lasso)之前进行特征选择?从技术上讲,套索正在帮助我减少L1损失,那么为什么在运行算法之前需要选择特征? 我读了一篇研究文章,说先做Anova再做SVM比单独使用SVM可以提供更好的性能。现在的问题是:SVM本质上使用L2规范进行正则化。为了最大化裕量,它正在最小化权重向量范数。因此,它正在对其目标函数进行正则化。那么从技术上讲,诸如SVM之类的算法就不应该困扰于特征选择方法吗?但是该报告仍然说,在普通SVM功能更强大之前进行Univariate Feature选择。 有想法的人吗?

1
libsvm“达到最大迭代次数”警告和交叉验证
我在C-SVC模式下使用2级多项式内核的libsvm,并且需要训练多个SVM。每个训练集都有10个特征和5000个向量。在训练过程中,我收到有关我训练的大多数SVM的警告: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 有人可以解释这个警告的含义,以及如何避免它吗? 我还想对我的模型进行交叉验证,以便确定γ和C(正则化)的最佳选择。我的计划是仅尝试这10个值的每种组合:两个参数都为0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000,然后看看哪种组合在交叉验证期间产生最佳精度。这够了吗?我应该在此间隔中使用更多的值,还是应该选择更大的间隔?


2
如果我们只对建模感兴趣,而对预测不感兴趣,则正则化功能会有所帮助吗?
如果我们仅对估计(和解释)模型参数感兴趣,而对预测或预测不感兴趣,则正则化功能会有所帮助吗? 如果您的目标是对新数据做出良好的预测,我将看到正则化/交叉验证非常有用。但是,如果您正在做传统经济学,而您所关心的只是估计呢?在这种情况下,交叉验证是否也有用?我在概念上遇到的困难是,我们实际上可以在测试数据上计算,但我们永远无法计算因为根据定义,从未观察到真实的。(假设存在一个真实的,即我们知道从中生成数据的模型族。)ββ\beta大号( ÿ,Y^)大号(ÿ,ÿ^)\mathcal{L}\left(Y, \hat{Y}\right)大号( β,β^)大号(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta 假设您的损失是。您将面临偏差方差的折衷,对吗?因此,从理论上讲,您最好进行一些正则化。但是,如何选择正则化参数呢?大号( β,β^) = ∥ β-β^∥大号(β,β^)=‖β-β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 我很高兴看到一个线性回归模型的简单数值示例,其系数为β≡ (β1个,β2,… ,βķ)β≡(β1个,β2,…,βķ)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k),其中研究人员的损失函数为∥ β- β^∥‖β-β^‖\lVert \beta - \hat{\beta} \rVert,或什至(β1个- β^1个)2(β1个-β^1个)2(\beta_1 - \hat{\beta}_1)^2。在实践中,如何在这些示例中使用交叉验证来改善预期损失? 编辑:约翰逊(DJohnson)将我指向https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf,与该问题相关。作者写道 机器学习技术...提供了一种预测\ hat {Y}的有条理的方法, ÿ^ÿ^\hat{Y}该方法(i)使用数据本身来决定如何进行偏差方差的权衡,并且(ii)可以搜索非常丰富的变量和函数形式。但是,一切都是有代价的:必须始终牢记,因为它们针对\ hat {Y}进行了调整,所以它们ÿ^ÿ^\hat{Y} (在没有其他许多假设的情况下)不会为\ hat {\ beta}提供非常有用的保证β^β^\hat{\beta}。 再次感谢DJohnson,这是另一篇相关论文:http ://arxiv.org/pdf/1504.01132v3.pdf 。本文解决了我在上面遇到的问题: 将现成的回归树等机器学习方法应用于因果推理问题的一个根本挑战是,基于交叉验证的正则化方法通常依赖于观察“基本事实”,即实际结果在交叉验证样本中。但是,如果我们的目标是最小化治疗效果的均方误差,则会遇到[11]所说的“因果推理的基本问题”:没有观察到因果关系的任何个体,因此我们不会直接有一个基本的事实。我们通过提出用于构建治疗因果效应的均方误差的无偏估计的方法来解决此问题。

3
岭回归与PCA回归之间的关系
我记得在网络上的某个地方阅读过岭回归(具有正则化)和PCA回归之间的联系:在使用带超参数正则回归时,如果,则回归等同于删除特征值最小的PC变量。ℓ 2 λ λ →交通0ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 为什么会这样呢? 这与优化过程有关吗?天真的,我希望它等同于OLS。 有人为此提供参考吗?

1
有同时进行L1和L2正则化(又称弹性网)的线性回归的贝叶斯解释吗?
众所周知,惩罚为线性回归等效于在系数上给出高斯先验后找到MAP估计。同样,使用l 1罚则等同于使用拉普拉斯分布作为先验。l2l2l^2l1l1l^1 使用和l 2正则化的一些加权组合并不罕见。我们是否可以说这等于系数上的某些先验分布(直觉上似乎必须如此)?我们可以给这个分布一个好的分析形式(也许是高斯和拉普拉斯的混合)吗?如果没有,为什么不呢?l1l1l^1l2l2l^2


4
神经网络中的“自由度”是什么意思?
在Bishop的书《模式分类和机器学习》中,它描述了一种在神经网络环境下进行正则化的技术。但是,我不理解一段描述训练过程中自由度的数量随模型复杂性而增加的段落。相关报价如下: 作为控制网络有效复杂性的一种方式,使用正规化的另一种方法是早期停止的过程。非线性网络模型的训练对应于针对一组训练数据定义的误差函数的迭代减少。对于用于网络训练的许多优化算法(例如共轭梯度),误差是迭代索引的非递增函数。但是,相对于独立数据测得的误差(通常称为验证集)通常首先显示出减小的趋势,然后随着网络开始过度拟合而增大。因此,可以相对于验证数据集在最小错误点停止训练,如图5.12所示,以便获得具有良好泛化性能的网络。在这种情况下,有时会根据网络中的有效自由度来对网络的行为进行定性解释,其中,该自由度从小开始,然后在训练过程中逐渐增加,这与有效自由度的稳定增长相对应。模型的复杂性。 它还说,参数的数量在训练过程中会增加。我假设通过“参数”来指代网络隐藏单元控制的权重数。也许我错了,因为通过正则化过程可以防止权重的大小增加,但是权重不会改变。难道是指找到大量隐藏单位的过程? 神经网络的自由度是多少?训练期间增加哪些参数?

2
频率和先验
罗比McKilliam说,在一个评论这个职位: 应该指出的是,从常客的观点来看,没有理由不能将先验知识整合到模型中。从这个意义上讲,常客视图更简单,您只有一个模型和一些数据。无需将先验信息与模型分开 另外,@ jbowman 在这里说,常客通过成本/罚函数使用正则化,而贝叶斯算法则可以将其作为先验: 频繁的人意识到正则化是好的,并且如今已经非常普遍地使用它-贝叶斯先验可以很容易地解释为正则化。 因此,我的问题是,贝叶斯主义者通常可以将贝叶斯主义者指定为先验者的常识纳入他们的模型吗?以正则化为例,成本/罚函数是否真的集成到了模型中,或者这仅仅是调整解决方案(以及使其唯一)的纯人工方式?

2
关联特征后,为什么Lasso或ElasticNet的性能优于Ridge
我有一组150个功能,其中许多功能彼此之间高度相关。我的目标是预测范围为1-8的离散变量的值。我的样本大小为550,我正在使用10倍交叉验证。 AFAIK,在正则化方法(套索,ElasticNet和Ridge)中,Ridge更严格地关联特征之间。这就是为什么我期望使用Ridge可以得到更准确的预测的原因。但是,我的结果表明,Lasso或Elastic的平均绝对误差在0.61左右,而岭回归的平均分误差是0.97。我不知道对此会有什么解释。这是因为我拥有许多功能,而Lasso却因为选择了某种功能而摆脱了多余的功能,因此性能更好了吗?

1
为什么“宽松套索”与标准套索不同?
如果我们开始与一组数据的,应用套索给它,将获得的溶液β 大号,我们可以再次应用套索到数据集(X 小号,ÿ ),其中小号是一组非零的指标β 大号,以得到溶液,β - [R 大号,被称为“放松套索”的解决方案(如果我错了指正!)。将溶液β 大号必须满足Karush-库恩-塔克(KKT)条件下对(X ,ÿ )(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y),但考虑的KKT条件的形式它是否也满足这些条件?如果是这样,第二次做LASSO有什么意义?(XS,Y)(XS,Y)(X_S, Y) 该问题是针对以下问题的后续措施: 做“双套索”或两次执行套索的优势?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.