Questions tagged «ridge-regression»

回归模型的正则化方法将系数缩小为零。

2
如果以巧妙的方式应用收缩率,对于效率更高的估算器来说,收缩率是否始终会更好?
假设我有两个估算器和是相同参数一致估算器,并且 ,在psd的意义上为。因此,渐近比更有效。这两个估计器基于不同的损失函数。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) β 1 β 2V1≤V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 现在,我想寻找一些收缩技术来改善估计量的有限样本属性。 假设我发现了一种收缩技术,可以改善有限样本中的估算器,并为我提供等于的MSE值。这是否意味着我可以找到一种适用于收缩方法 ,使我的MSE 不大于? γ 2 β 1βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 换句话说,如果巧妙地应用了收缩率,那么对于更高效的估算器来说,收缩率是否总是更好地工作?


1
Ridge和LASSO具有协方差结构?
在阅读了《统计学习的要素》(Hastie,Tibshrani和Friedman)的第3章之后,我想知道是否有可能在给定协方差结构的情况下实现此问题标题上引用的著名收缩方法,即最小化(也许更一般) )数量 (y⃗ - Xβ⃗ )ŤV− 1(y⃗ - Xβ⃗ )+ λ ˚F(β),(1 ) (ÿ→-Xβ→)ŤV-1个(ÿ→-Xβ→)+λF(β), (1个)(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1) 而不是通常的 这主要是由于以下事实:在我的特定应用中,我们对具有不同的方差(有时甚至可以估算出协方差结构),我很乐意将其包括在内他们在回归。我这样做是为了进行岭回归:至少通过在Python / C中实现它,我发现系数追踪的路径存在重要差异,这在比较两种情况下的交叉验证曲线时也很明显。(y⃗ - Xβ⃗ )(y⃗ - Xβ⃗ )+ λ ˚F(β)。(2 ) (ÿ→-Xβ→)(ÿ→-Xβ→)+λF(β)。 (2)(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2)ÿ⃗ ÿ→\vec{y} 我现在准备尝试通过最小角度回归来实现LASSO,但是为了做到这一点,我必须首先证明,当最小化而不是时,其所有不错的属性仍然有效。到目前为止,我还没有看到任何能真正完成所有这些工作的工作,但是一段时间前,我还读了一句话,上面写着“ 那些不知道统计数字的人注定要重新发现它 …

2
在给定自由度和输入矩阵的情况下,如何在岭回归中计算正则化参数?
设A 为自变量的n×pñ×pn \times p矩阵,而B为因变量的相应n ×矩阵。在岭回归,我们定义一个参数使得:。现在让[usv] = svd(A)和对角线输入s。我们定义自由度(df)=。岭回归缩小了低方差分量的系数,因此参数控制自由度。因此对于n×1ñ×1个n \times 1λλ\lambdaβ= (AŤ一个+ λ 我)− 1一种Ť乙β=(一种Ť一种+λ一世)-1个一种Ť乙\beta=(A^\mathrm{T}A+\lambda I)^{-1}A^\mathrm{T}Bd一世= 我Ť ^ hd一世=一世ŤHd_{i}=i^{th}∑ñ我= 1(d一世)2(d一世)2+ λ∑一世=1个ñ(d一世)2(d一世)2+λ\sum_{i=1}^{n} \frac{(d_{i})^2}{(d_{i})^2+\lambda}λλ\lambdaλ = 0λ=0\lambda=0,这是正态回归df = n的情况,因此将考虑所有自变量。我面临的问题是找到给定'df'和矩阵's' 的值。我试图重新排列上面的方程式,但没有得到封闭形式的解决方案。请提供任何有用的指示。λλ\lambda

1
核岭回归效率
岭回归可以表示为,其中是预测标签,的识别矩阵,我们试图找到一个标签的对象,而的的矩阵对象使得:ÿ^= (X′X +a一世d)− 1X Xy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}xÿ^y^\hat{y}一世dId\mathbf{I}_dd× dd×dd \times dXx\mathbf{x}XX\mathbf{X}n × dn×dn \times dñnnX一世= (X我,1,。。。,X我,d)∈[Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X =⎛⎝⎜⎜⎜⎜⎜X1 ,1X2 ,1⋮XÑ ,1X1 ,2X2 ,2⋮X1 ,2……⋱…X1 ,dX2 ,d⋮Xñ ,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ …


2
R和SAS中的岭回归实现之间的区别
我已经阅读了《应用线性统计模型》第5版第11章中对岭回归的描述。岭回归是根据此处可用的身体脂肪数据完成的。 教科书与SAS中的输出匹配,在拟合模型中反变换系数为: Y=−7.3978+0.5553X1+0.3681X2−0.1917X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 从SAS显示为: proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = 0.02 and y = -1; var y intercept x1 x2 x3; run; Obs Y Intercept X1 X2 …


3
如何执行非负岭回归?
如何执行非负岭回归?非负套索可在中找到scikit-learn,但对于ridge,我无法强制beta的非负性,实际上,我得到的是负系数。有人知道为什么吗? 另外,我可以按照规则的最小二乘法实施ridge吗?将此问题移至另一个问题:我可以根据OLS回归实现岭回归吗?

2
对岭回归中“矩阵求逆的数值稳定性”的清晰解释及其在减少过拟合中的作用
我知道我们可以在最小二乘回归问题中采用正则化 w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] 并且这个问题有一个封闭形式的解决方案,如: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 我们看到在第二个方程中,正则化只是在\ boldsymbol {X} ^ T \ boldsymbol {X}的对角线上添加了\ lambda,这样做是为了提高矩阵求逆的数值稳定性。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 我目前对数值稳定性的“粗略”理解是,如果函数变得更加“数值稳定”,则其输出受输入噪声的影响较小。我很难将提高数值稳定性的概念与如何避免/减少过度拟合的问题联系在一起。 我曾尝试查看Wikipedia和其他一些大学网站,但他们没有深入解释为什么会这样。

3
使用R进行K折或保留交叉验证以进行岭回归
我正在对200个主题和1000个变量的数据预测进行交叉验证。我对岭回归很感兴趣,因为变量数(我想使用)大于样本数。所以我想使用收缩估计量。以下是示例数据: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g))) myd <- data.frame(y=y, M) myd[1:10,1:10] y X1 …

3
回归平滑样条曲线中等于k个分类变量的k个结的选择?
我正在研究一种预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄与住院风险之间存在很强的非线性关系: 我正在考虑针对患者年龄的惩罚性回归平滑样条。根据《统计学习的要素》(Hastie等,2009,第151页),最佳结位置是每个会员年龄的唯一值一个结。 假设我将年龄保留为整数,那么惩罚平滑样条曲线是否等效于运行带有101个不同的年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个作为参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小为零。

1
将岭回归应用于欠定方程组?
当,对值施加球形限制最小二乘问题可以写成 对于超定系统,。\ | \ cdot \ | _2是向量的欧几里得范数。y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 \\ \operatorname{s.t.}\ \ \|\beta\|^2_2 \le \delta^2 \end{array} \end{equation}∥⋅∥2‖⋅‖2\|\cdot\|_2 \ beta的对应解ββ\beta由 β^=(XTX+λI)−1XTy ,β^=(XTX+λI)−1XTy ,\begin{equation} \hat{\beta} = \left(X^TX + \lambda I\right)^{-1}X^T y \ , \end{equation} 可以从拉格朗日乘数的方法得出(λλ\lambda是乘数): L(β,λ)=∥y−Xβ∥22+λ(∥β∥22−δ2)L(β,λ)=‖y−Xβ‖22+λ(‖β‖22−δ2)\begin{equation} \mathcal{L}(\beta,\lambda) = …

2
了解岭回归结果
我是岭回归的新手。当我应用线性岭回归时,我得到以下结果: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is 0.3718668 smallest value of GCV at 0 问题: 可以得到零GCV吗? 这到底是什么意思? 我的模型有问题吗? 我如何找到 [R2[R2R^2值myridge?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.