Questions tagged «ridge-regression»

回归模型的正则化方法将系数缩小为零。




2
为什么将岭回归称为“岭”,为什么需要它,当达到无穷大时会发生什么?
岭回归系数估计是使β^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. 我的问题是: 如果,那么我们看到上面的表达式简化为通常的RSS。如果怎么办?我不理解教科书中有关系数行为的解释。λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty 为了帮助理解特定术语背后的概念,为什么将该术语称为RIDGE回归?(为什么要使用ridge?)通常/常见回归可能有什么问题,需要引入一个称为ridge回归的新概念? 您的见解会很棒。

5
关于收缩的统一观点:斯坦因悖论,岭回归和混合模型中的随机效应之间有什么关系(如果有)?
考虑以下三种现象。 斯坦因悖论:给定一些来自多元正态分布的数据,样本均值并不是真实均值的很好估计。如果将样本均值的所有坐标都缩小为零(或者如果我理解正确的话,实际上是缩小为任何值),则可以获得具有较低均方误差的估计。Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 注意:通常斯坦因悖论是通过仅考虑单个数据点而得出的;如果这很关键并且我上面的说法不正确,请纠正我。RnRn\mathbb R^n Ridge回归:给定一些因变量和一些自变量,标准回归趋于过度拟合数据并导致糟糕的样本外性能。通常可以通过将缩小为零来减少过度拟合:。X β = (X ⊤ X )- 1 X ⊤ Ŷ β β = (X ⊤ X + λ 我)- 1 X ⊤ ÿyy\mathbf yXX\mathbf Xβ=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yββ\betaβ=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda …

5
收缩方法能解决什么问题?
假期的来临使我有机会借助“统计学习的要素”在火炉旁next 缩。从计量经济学的角度来看,我在掌握收缩方法(如岭回归,套索和最小角度回归(LAR))的使用方面遇到了麻烦。通常,我对参数估计值本身以及实现无偏见或至少一致感兴趣。收缩方法不能做到这一点。 在我看来,当统计人员担心回归函数对预测变量过于敏感时,会使用这些方法,因为它认为预测变量比实际更为重要(通过系数的大小来衡量)。换句话说,过度拟合。 但是,OLS通常会提供无偏且一致的估计。(脚注)我一直认为过拟合的问题不是给出太大的估计,而是给出过小的置信区间,因为未考虑选择过程( ESL提到了后者。 无偏/一致的系数估计会导致对结果的无偏/一致的预测。收缩方法使预测比OLS更接近平均结果,似乎在桌上留下了信息。 重申一下,我没有看到收缩方法试图解决什么问题。我想念什么吗? 脚注:我们需要完整的列级条件来识别系数。误差的外生性/零条件均值假设和线性条件期望假设决定了我们可以对系数进行的解释,但是即使这些假设不成立,我们也可以得到无偏或一致的估计值。

3
为什么通过向对角线添加一个常数来使岭估计比OLS更好?
据我所知,岭回归估计是ββ\beta最小化上的大小的平方残余总和和惩罚ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] 但是,我不完全理解与不同的事实的重要性,因为它仅向的对角线添加一个小常数。确实,β OLS X ' Xβridgeβridge\beta_\text{ridge}βOLSβOLS\beta_\text{OLS}X′XX′XX'X βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y 我的书中提到,这使估算值在数值上更稳定-为什么? 数值稳定性与向岭估计值的趋近于0的收缩有关还是仅仅是巧合?


6
在高维度(
考虑一个具有预测变量和样本大小旧回归问题。通常的看法是,OLS估计量将过拟合,并且通常会比岭回归估计量好:通常使用交叉验证来找到最佳正则化参数。在这里,我使用10倍CV。澄清更新:当,通过“ OLS估计器”,我理解给出的“最小范数OLS估计器”pppβ = (X ⊤ X + λ 我)- 1 X ⊤ ÿ 。λ Ñ &lt; p β OLS = (X ⊤ X )+ X ⊤ Ŷ = X + ý 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan&lt;pn&lt;pn1000yyyp=50&lt;np=50&lt;np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0与最佳岭回归效果一样好。λλ\lambda 这怎么可能?它对我的数据集有何影响?我是否遗漏了一些明显的东西,或者确实违反直觉?假设和都大于,则在质上有什么区别?p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 在什么条件下最小范数OLS解决方案不会过拟合?n&lt;pn&lt;pn<p 更新:注释中有些令人难以置信,因此这是使用的可复制示例glmnet。我使用Python,但是R用户可以轻松修改代码。 %matplotlib notebook import numpy …

5
如何得出岭回归解?
我在脊回归解决方案的推导中遇到一些问题。 我知道没有正则化项的回归解决方案: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. 但是在将L2项到成本函数之后,解决方案变成了λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.


1
何时才真正需要嵌套交叉验证,并且可以在实践上有所作为?
使用交叉验证进行模型选择(例如,超参数调整)并评估最佳模型的性能时,应使用嵌套交叉验证。外环用于评估模型的性能,内环用于选择最佳模型。在每个外部训练集上选择模型(使用内部CV回路),并在相应的外部测试集上评估其性能。 这已经在很多线程中进行了讨论和解释(例如,在这里进行交叉验证后使用完整数据集进行培训吗?,请参阅@DikranMarsupial的答案),并且对我来说是完全清楚的。仅对模型选择和性能评估进行简单的(非嵌套)交叉验证会产生正偏差的性能评估。@DikranMarsupial在有关此主题的2010年论文中(关于模型选择中的过拟合和性能评估中的后续选择偏差),第4.3节称为“模型中的过拟合是否真的是真正的关注点”?-文件显示答案是肯定的。 综上所述,我现在正在使用多元多元岭回归,并且我看不到简单CV和嵌套CV之间的任何区别,因此在这种特殊情况下嵌套CV看起来像是不必要的计算负担。我的问题是:在什么条件下简单的简历会产生明显的偏差,而嵌套的简历可以避免这种情况?嵌套CV在实践中什么时候重要,什么时候没什么关系?有没有经验法则? 这是使用我的实际数据集的说明。水平轴是对脊回归的对。垂直轴是交叉验证错误。蓝线对应于简单的(非嵌套)交叉验证,具有50个随机的90:10训练/测试分割。红线对应于具有50个随机90:10训练/测试分割的嵌套交叉验证,其中使用内部交叉验证循环(也是50个随机90:10分割)选择λ。线是超过50个随机分割的平均值,阴影显示± 1标准偏差。log(λ)log⁡(λ)\log(\lambda)λλ\lambda±1±1\pm1 λλ\lambdaλλ\lambda 更新资料 实际上是这样:-)只是差别很小。这是放大图: λ=0.002λ=0.002\lambda=0.002505050 λ=0.002λ=0.002\lambda=0.002 (我将整个过程运行了几次,并且每次都会发生。) 我的问题是,在什么情况下我们可以期望这种偏见是微不足道的?在什么情况下我们不应该这样?

3
如何使用> 50K变量估算套索或岭回归中的收缩参数?
我想对超过50,000个变量的模型使用套索或岭回归。我想使用R中的软件包来执行此操作。如何估算收缩率参数()?λλ\lambda 编辑: 这是我要提出的要点: set.seed (123) Y &lt;- runif (1000) Xv &lt;- sample(c(1,0), size= 1000*1000, replace = T) X &lt;- matrix(Xv, nrow = 1000, ncol = 1000) mydf &lt;- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 我的问题是:我怎么知道哪个最适合我的模型?λλ\lambda

2
如果仅对预测感兴趣,为什么在山脊上使用套索?
在《统计学习入门》的第223页中,作者总结了岭回归和套索之间的区别。他们提供了一个示例(图6.9),其中“套索在偏见,方差和MSE方面倾向于胜过岭回归”。 我知道为什么套索是可取的:因为它会将许多系数缩小到0,所以结果很稀疏,从而导致模型简单易懂。但是我不明白当仅对预测感兴趣时,它如何能胜过岭(即,在示例中,它如何获得显着更低的MSE?)。 使用ridge时,如果许多预测变量对响应几乎没有影响(少数预测变量产生很大影响),它们的系数不会简单地缩小到非常接近零的小数目...导致与套索非常相似?那么,为什么最终模型的性能会比套索差?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.