Questions tagged «ridge-regression»

回归模型的正则化方法将系数缩小为零。

1
L1正则化的回归与套索是否相同,L2正则化的回归与岭回归是否相同?以及如何写“套索”?
我是一名学习机器学习的软件工程师,尤其是通过Andrew Ng的机器学习课程学习机器学习。在研究带有正则化的线性回归时,我发现令人困惑的术语: 使用L1正则化或L2正则化进行回归 套索 岭回归 所以我的问题是: L1正则化的回归与LASSO完全相同吗? L2正则化的回归与Ridge回归完全相同吗? LASSO是如何写作的?应该是“ LASSO回归”吗?我见过类似“ 套索更合适 ”的用法。 如果以上1和2的答案是“是”,那么为什么这两个术语有不同的名称?“ L1”和“ L2”是否来自计算机科学/数学,而“ LASSO”和“ Ridge”是否来自统计? 当我看到类似以下内容的帖子时,这些术语的使用会造成混淆: “ L1和L2正则化有什么区别? ”(quora.com) “ 什么时候应该使用套索vs岭? ”(stats.stackexchange.com)




2
为什么glmnet岭回归给我的答案与手动计算不同?
我正在使用glmnet计算岭回归估计值。我得到了一些结果,使我对glmnet确实在做我认为做的事情感到怀疑。为了验证这一点,我编写了一个简单的R脚本,在其中比较了Solve和glmnet中进行的岭回归的结果,两者之间的区别非常明显: n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 差异的范数通常约为20,这不可能是由于数值算法不同而引起的,我一定做错了。glmnet为了获得与ridge相同的结果,我必须设置哪些设置?

3
回归中岭正则化的解释
关于最小二乘背景下的岭罚,我有几个问题: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)该表达式表明X的协方差矩阵朝对角线矩阵收缩,这意味着(假设变量在过程之前已标准化)输入变量之间的相关性将降低。这种解释正确吗? 2)如果它是收缩应用程序,为什么不使用,假设我们可以通过归一化将lambda限制在[0,1]范围内。(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3)什么是的规范化,以便可以将其限制在[0,1]之类的标准范围内。λλ\lambda 4)在对角线上添加一个常数会影响所有特征值。仅攻击奇异值或接近奇异值会更好吗?这是否等同于在回归之前将PCA应用于X并保留前N个主要成分,或者它具有不同的名称(因为它不会修改交叉协方差计算)? 5)我们可以对交叉协方差进行正则化吗,或者有什么用,意味着βridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) 较小的会降低交叉协方差。显然,这会同等地降低所有,但是也许有一种更聪明的方法,如根据协方差值进行硬/软阈值设置。βγγ\gammaββ\beta


1
网桥惩罚与Elastic Net正则化
很好地研究了一些罚函数和近似值,例如LASSO()和Ridge()以及它们如何进行回归比较。L1L1L_1L2L2L_2 我一直在阅读有关Bridge惩罚的信息,即广义惩罚。将其与具有\ gamma = 1的LASSO 和具有\ gamma = 2的Ridge进行比较,使其成为特殊情况。 γ = 1 γ = 2∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]将\ gamma \ geq 1时的Bridge惩罚γ≥1γ≥1\gamma \geq 1与LASSO进行了比较,但是我找不到与LASSO和Ri​​dge惩罚相结合的弹性网正则化的比较,给出为∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}。 这是一个有趣的问题,因为Elastic Net和此特定的Bridge具有相似的约束形式。使用不同的度量比较这些单位圆(ppp是Minkowski距离的幂): p=1p=1p = 1对应于LASSO,p=2p=2p = 2对应于Ridge,p=1.4p=1.4p = 1.4于一个可能的网桥。弹性网在L1L1L_1和L2L2L_2罚分上具有相等的权重。例如,这些数字可用于识别稀疏性(Bridge明显缺少稀疏性,而Elastic Net将其保存在LASSO中)。 那么在正则化(稀疏性除外)方面,具有1 &lt;\ gamma &lt;2的Bridge与1&lt;γ&lt;21&lt;γ&lt;21<\gamma <2Elastic Net相比如何?我对监督学习特别感兴趣,因此也许有关特征选择/加权的讨论是适当的。也欢迎几何论证。 也许更重要的是,在这种情况下,Elastic Net是否总是更理想? …

2
时“单位方差”岭回归估计的极限
考虑带有附加约束的岭回归,该约束要求具有单位平方和(等效于单位方差);如果需要,可以假定也具有单位平方和: ÿy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ infty时\ hat {\ boldsymbol \ beta} _ \ lambda ^ *的限制是多少?β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下是一些我认为是正确的声明: 当λ=0λ=0\lambda=0,有一个整洁的显式解决方案:采用OLS估计器β^0= (X⊤X )− 1X⊤ÿβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y并对其进行归一化以满足约束(可以通过添加Lagrange乘数并进行微分来查看此约束): β^∗0= β^0/ ∥X β^0∥ 。β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = …

2
置信区间的覆盖范围以及常规估计
假设我正在尝试使用某种正则化估计从一些高维数据中估计大量参数。正则化器在估计中引入了一些偏差,但这仍然是一个很好的权衡,因为方差的减少应足以弥补这一不足。 当我想估计置信区间时(例如使用拉普拉斯逼近法或自举法),问题就来了。具体来说,我的估算偏差会导致我的置信区间覆盖不良,这使得难以确定我的估算器的频繁性。 我已经找到了一些讨论此问题的论文(例如“基于Edgeworth展开的岭回归中的渐近置信区间”),但是数学大多超出了我的理解。在链接的论文中,方程式92-93似乎为通过岭回归进行正则化的估计值提供了校正因子,但我想知道是否存在适用于一系列不同正则化器的良好程序。 即使是一阶校正也将非常有帮助。


2
岭回归的假设是什么,以及如何对其进行检验?
考虑用于多元回归的标准模型,其中,因此误差的正态性,同和不相关性都成立。Y=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) 假设我们通过向的对角线的所有元素添加相同的少量量来执行岭回归:XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y 尽管\ beta_ \ mathrm {ridge}是\ beta的有偏估计量,但仍有一些值的岭系数比OLS的均方根误差小。实际上,k是通过交叉验证获得的。kkkβridgeβridge\beta_\mathrm{ridge}ββ\betakkk 这是我的问题:岭模型背后的假设是什么?更具体地说, 普通最小二乘法(OLS)的所有假设在岭回归中是否有效? 如果对问题1回答为“是”,我们如何使用\ beta的有偏估计量来检验同方差和缺乏自相关性ββ\beta? 是否有任何工作可用于在岭回归下测试其他OLS假设(均方差性和缺乏自相关性)?


2
从惩罚回归模型估计R平方和统计显着性
我使用受罚的R包来获取数据集的压缩系数估计,在该数据集中,我有很多预测变量,而对于哪些预测变量很重要则知之甚少。在选择了调整参数L1和L2并且对系数感到满意之后,是否有一种统计上合理的方法来汇总模型拟合度(如R平方)? 此外,我对测试模型的整体重要性感兴趣(即R²= 0还是全部= 0)。 我已仔细阅读了此处提出的类似问题的答案,但并没有完全回答我的问题。我在这里使用的R包有一个很好的教程,作者Jelle Goeman在教程的最后有关于注释式回归模型的置信区间的以下注释: 要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用引导程序。 尽管如此,该程序包还是故意不提供它们。这样做的原因是,标准误差对于严重偏差的估算(例如由惩罚估算方法产生的估算)不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此,每个估计量的偏差都是其均方误差的主要组成部分,而其方差可能只占很小的一部分。 不幸的是,在惩罚回归的大多数应用中,不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时,才可以使用偏差的可靠估计,而在使用罚分估计的情况下,情况通常并非如此。 因此,报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象,而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明,例如基于引导程序的置信区间,确实是一个错误。

3
岭回归与PCA回归之间的关系
我记得在网络上的某个地方阅读过岭回归(具有正则化)和PCA回归之间的联系:在使用带超参数正则回归时,如果,则回归等同于删除特征值最小的PC变量。ℓ 2 λ λ →交通0ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 为什么会这样呢? 这与优化过程有关吗?天真的,我希望它等同于OLS。 有人为此提供参考吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.