Questions tagged «ridge-regression»

回归模型的正则化方法将系数缩小为零。

2
岭回归-贝叶斯解释
我听说,如果适当选择先验,则可以将岭回归作为后验分布的平均值。直觉是先验对回归系数设置的约束(例如,标准正态分布在0附近)是否相同/替换对系数平方大小设置的惩罚?要保持等价,先验是否必须是高斯?

1
岭回归背景下的拉格朗日松弛
在“统计学习的要素”(第二版),p63中,作者给出了岭回归问题的以下两种表述: β^[R 我ðGË= 精氨酸β{ ∑我= 1ñ(y一世- β0− ∑j = 1pX我ĴβĴ)2+ λ Σj = 1pβ2Ĵ}β^[R一世dGË=精氨酸β{∑一世=1个ñ(ÿ一世-β0-∑Ĵ=1个pX一世ĴβĴ)2+λ∑Ĵ=1个pβĴ2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} 和 β^[R 我ðGË= 精氨酸β∑我= 1ñ(y一世- β0− ∑j = 1pX我ĴβĴ)2,以∑为准 j = 1pβ2Ĵ≤ 牛逼。β^[R一世dGË=精氨酸β∑一世=1个ñ(ÿ一世-β0-∑Ĵ=1个pX一世ĴβĴ)2,受 ∑Ĵ=1个pβĴ2≤Ť。 \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } …




2
AIC,BIC和GCV:在惩罚回归方法中做出决策的最佳方法是什么?
我的一般理解是AIC处理模型的拟合优度和模型的复杂性之间的权衡。 一个我C= 2 k - 2 l n (L )AIC=2k−2ln(L)AIC =2k -2ln(L) ķkk =模型中的参数数量 大号LL =可能性 贝叶斯信息准则BIC与AIC密切相关.AIC对参数数量的惩罚程度不如BIC。我可以看到这两个在历史上到处都有使用。但是广义交叉验证(GCV)对我来说是新的。GCV如何与BIC或AIC相关?这些标准如何一起或单独用于在像ridge这样的面板回归中选择惩罚项? 编辑: 这是一个思考和讨论的示例: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE) p <- pentrace(ridgefits, seq(0,1,by=.01)) effective.df(ridgefits,p) out <- p$results.all par(mfrow=c(3,2)) plot(out$df, out$aic, col = "blue", type = "l", ylab = …

1
为什么在多重共线性的情况下Ridge回归能很好地工作?
我正在学习有关岭回归的知识,并且知道在存在多重共线性的情况下,岭回归往往会更好地工作。我想知道为什么这是真的吗?直观的答案或数学的答案都将令人满意(两种类型的答案都将更加令人满意)。 我也知道 β^β^\hat{\beta} 总是可以得到的,但是在存在精确共线性的情况下(一个独立变量是另一个的线性函数),岭回归的效果如何?

1
岭回归的AIC:自由度与参数数量
我想计算岭回归模型的AICc。问题是参数的数量。对于线性回归,大多数人建议参数的数量等于估计系数的数量加上sigma(误差的方差)。 当涉及到岭回归时,我读到帽子矩阵的迹线(自由度(df))仅用作AIC公式中的参数项数(例如,此处或此处)。 它是否正确?我还可以简单地使用df来计算AICc吗?我可以简单地将+1添加到df中以解决误差差异吗?


2
使用行增强的Ridge惩罚GLM?
我已经读过可以通过简单地将数据行添加到原始数据矩阵中来实现岭回归,其中每行使用0表示因变量,而平方根或使用0表示自变量。然后为每个自变量添加额外的一行。kkk 我想知道是否有可能针对所有情况(包括逻辑回归或其他GLM)得出证明。

1
了解负岭回归
我正在寻找有关负脊回归的文献。 总之,它是用负线性岭回归的一般化λλ\lambda的估计公式β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.肯定的案例有一个很好的理论:作为损失函数,作为约束,作为贝叶斯先验...但我仅凭上述公式感到对否定版本感到迷惑。它恰好对我正在做的事情有用,但是我无法清楚地解释它。 您是否了解有关负山脊的严肃入门文字?如何解释?

2
为什么ridge回归不能提供比LASSO更好的解释性?
我已经对ridge回归和LASSO的利弊有了一个想法。 对于LASSO,L1惩罚项将产生稀疏系数矢量,可以将其视为特征选择方法。但是,LASSO有一些限制。如果特征具有高度相关性,则LASSO将仅选择其中之一。此外,对于 >问题,LASSO将最多选择参数(和分别是观测值和参数的数量)。与岭回归相比,就可预测性而言,这些经验使LASSO成为次优方法。Ñ Ñ Ñ ppppnnnnnnnnnppp 对于岭回归,通常可以提供更好的可预测性。但是,它的可解释性不如LASSO。 上面的解释通常可以在机器学习/数据挖掘的教科书中找到。但是,我仍然对两件事感到困惑: 如果我们对特征范围进行归一化(例如,介于0和1之间,或者均值和单位方差为零),并进行岭回归,则仍可以通过对系数的绝对值进行排序来了解特征的重要性(最重要的特征具有系数的最大绝对值)。尽管我们没有明确选择功能,但使用ridge回归并不会丧失可解释性。同时,我们仍然可以实现较高的预测能力。那为什么我们需要LASSO?我在这里想念什么吗? LASSO是否因其特征选择特性而被首选?据我了解,我们之所以需要特征选择,是因为它具有泛化能力和易于计算的能力。 为了简化计算,如果我们要执行某些NLP任务,我们不想将所有一百万个特征都馈入模型,因此我们首先删除一些显然无用的特征以降低计算成本。但是,对于LASSO,只有在将所有数据输入模型后才能知道特征选择结果(稀疏矢量),因此就降低计算成本而言,我们没有从LASSO中受益。我们只能更快地进行预测,因为现在我们仅将特征子集(例如一百万个中的500个)馈入模型以生成预测结果。 如果LASSO因其具有泛化能力而被首选,那么我们也可以使用ridge回归(或任何其他类型的正则化)来实现相同的目标。为什么我们再次需要LASSO(或弹性网)?为什么我们不能只坚持岭回归? 有人可以请问一下吗?谢谢!

5
Ridge&LASSO规范
这篇文章遵循以下内容:为什么通过向对角线添加一个常数,使岭估计变得比OLS好? 这是我的问题: 据我所知,岭正则化使用 -norm(欧几里德距离)。但是,为什么我们要使用此规范的平方呢?(的直接应用将 beta平方和的平方根)。ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 作为比较,对于LASSO,它不使用 -norm进行正则化。但是,这里是“真实的”范数(只是beta绝对值的平方的和,而不是该和的平方)。ℓ 1ℓ1个ℓ1\ell_1ℓ1个ℓ1\ell_1 有人可以帮我澄清一下吗?

2
使用KKT 显示范数正则回归与范数约束回归之间的等价关系
根据参考文献1册,第二册和纸。 已经提到,正规化回归(Ridge,LASSO和Elastic Net)与其约束公式之间存在等价关系。 我还查看了交叉验证1和交叉验证2,但是我看不到明确的答案表明等价或逻辑。 我的问题是 如何使用Karush–Kuhn–Tucker(KKT)证明这种等效性? 以下公式适用于Ridge回归。 注意 这个问题不是功课。只是增加了我对该主题的理解。 更新 我还不知道

1
当岭和套索分别表现良好但产生不同系数时如何解释结果
我正在使用Lasso和Ridge来运行回归模型(以预测介于0-5之间的离散结果变量)。在运行模型之前,我使用的SelectKBest方法scikit-learn将功能集从250减少到25。如果没有初始特征选择,套索和里奇均会降低准确性得分(这可能是由于样本量小600)所致。另外,请注意,某些功能是相关的。 运行模型后,我观察到Lasso和Ridge的预测精度几乎相同。但是,当我按系数的绝对值对它们进行排序后检查前10个特征时,我发现最多有%50重叠。 也就是说,鉴于每种方法分配的特征的重要性不同,基于所选模型,我可能会有完全不同的解释。 通常,这些功能代表网站中用户行为的某些方面。因此,我想通过突出具有较强预测能力而不是较弱特征(用户行为)的特征(用户行为)来解释发现。但是,我目前不知道如何前进。我应该如何解释模型?例如,应该结合两者并突出显示重叠部分,还是我应该选择Lasso,因为它提供了更多的可解释性?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.