Questions tagged «ridge-regression»

回归模型的正则化方法将系数缩小为零。

1
套索,山脊或弹性净解路径是单调的条件是否明确?
从该套索图(glmnet)得出的结论问题说明了套索估计量的解决路径不是单调的。也就是说,一些系数在缩小之前就已经增长了绝对值。 我已将这些模型应用于几种不同类型的数据集,但从未见过这种“狂野”的行为,直到今天,他们一直认为它们总是单调的。 是否有一组明确的条件可确保求解路径是单调的?如果路径改变方向,是否会影响结果的解释?

3
使用岭回归时如何估算系数标准误差?
我正在对高度多重共线性的数据使用岭回归。使用OLS,由于多重共线性,我在系数上获得了很大的标准误差。我知道岭回归是解决此问题的一种方法,但是在我看过的岭回归的所有实现中,均未报告系数的标准误差。我想通过某种方式来估计岭回归对减少特定系数的标准误差有多大帮助,从而估算出某种程度的帮助。有什么方法可以在岭回归中估算它们?

1
原始,对偶和内核岭回归之间的差异
Primal,Dual和Kernel Ridge回归有什么区别?人们正在使用这三种方法,并且由于每个人在不同来源使用的概念不同,因此我很难理解。 那么有人可以用简单的话告诉我这三个之间有什么区别吗?此外,每种技术都有哪些优点或缺点,其复杂性又是什么?

2
为什么ridge回归分类器在文本分类中效果很好?
在进行文本分类的实验中,我发现了脊分类器生成的结果,这些结果一直领先于那些最常提及的分类器中的测试,这些分类器适用于文本挖掘任务,例如SVM,NB,kNN等。尽管我没有详细说明除了针对参数的一些简单调整外,还针对此特定文本分类任务优化了每个分类器。 这样的结果也提到了迪克兰有袋动物。 并非来自统计背景,在在线阅读了一些材料之后,我仍然无法弄清其主要原因。谁能提供一些有关这种结果的见解?

3
在进行统计推断时使用正则化
我了解建立预测模型时进行正则化的好处(偏差与方差,防止过度拟合)。但是,我想知道当回归模型的主要目的是对系数进行推断(看看哪些预测变量具有统计学意义)时,也进行正则化(套索,岭,弹性网)是否是一个好主意。我很想听听人们的想法以及与之相关的任何学术期刊或非学术文章的链接。

2
从贝叶斯角度看LASSO和ridge:调整参数如何?
惩罚性回归估计量(例如LASSO和ridge)据说与具有某些先验的贝叶斯估计量相对应。我猜(因为我对贝叶斯统计知识还不够了解),对于固定的调整参数,存在一个具体的对应先验。 现在,常客可以通过交叉验证来优化调整参数。是否有这样做的贝叶斯等效项,并且完全使用吗?还是贝叶斯方法在查看数据之前有效地调整了调整参数?(我猜后者会损害预测性能。)

3
实现岭回归:选择用于智能电网
我正在Python / C模块中实现Ridge回归,并且遇到了这个“小”问题。我的想法是,我想或多或少地等距采样有效自由度(例如“统计学习的要素”上第65页的图),即样本: df(λ)=∑i=1pd2id2i+λ,df(λ)=∑i=1pdi2di2+λ,\mathrm{df}(\lambda)=\sum_{i=1}^{p}\frac{d_i^2}{d_i^2+\lambda},d2idi2d_i^2XTXXTXX^TXdf(λmax)≈0df(λmax)≈0\mathrm{df}(\lambda_{\max})\approx 0df(λmin)=pdf(λmin)=p\mathrm{df}(\lambda_{\min})=pλmax=∑pid2i/cλmax=∑ipdi2/c\lambda_{\max}=\sum_i^p d_i^2/cλmax≫d2iλmax≫di2\lambda_{\max} \gg d_i^2cccc=0.1c=0.1c=0.1λmin=0λmin=0\lambda_{\min}=0 如标题所示,那么,我需要以一定比例从到采样,以便(大概)对进行采样,例如从到间隔为 ...有没有简单的方法可以做到这一点?我曾想过使用牛顿-拉夫森方法为每个解方程,但这会增加过多的迭代,特别是当大时。有什么建议么?λλ\lambdaλminλmin\lambda_{\min}λmaxλmax\lambda_{\max}df(λ)df(λ)\mathrm{df}(\lambda)0.10.10.1cccpppdf(λ)df(λ)\mathrm{df}(\lambda)λλ\lambdappp

2
关联特征后,为什么Lasso或ElasticNet的性能优于Ridge
我有一组150个功能,其中许多功能彼此之间高度相关。我的目标是预测范围为1-8的离散变量的值。我的样本大小为550,我正在使用10倍交叉验证。 AFAIK,在正则化方法(套索,ElasticNet和Ridge)中,Ridge更严格地关联特征之间。这就是为什么我期望使用Ridge可以得到更准确的预测的原因。但是,我的结果表明,Lasso或Elastic的平均绝对误差在0.61左右,而岭回归的平均分误差是0.97。我不知道对此会有什么解释。这是因为我拥有许多功能,而Lasso却因为选择了某种功能而摆脱了多余的功能,因此性能更好了吗?

1
逆向岭回归:给定响应矩阵和回归系数,找到合适的预测因子
考虑一个标准的OLS回归问题:我有矩阵\ Y和\ X,我想找到\ B以最小化L = \ | \ Y- \ X \ B \ | ^ 2。 该解决方案由\ hat \ B = \ argmin_ \ B \ {L \} =(\ X ^ \ top \ X)^ + \ X ^ \ top \ Y给出。\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}YY\YXX\Xββ\Bβ = argmin β { …

2
为什么脊回归不像套索那样将某些系数缩小为零?
在解释LASSO回归时,通常使用菱形和圆形图。据说因为LASSO中约束的形状是菱形,所以获得的最小二乘解可能会触及菱形的角,从而导致某些变量的收缩。但是,在山脊回归中,因为它是一个圆,所以它通常不会接触轴。我不明白为什么它不能接触轴,或者收缩某些参数的可能性比LASSO低。最重要的是,为什么LASSO和ridge的方差比普通的最小二乘法低?以上是我对ridge和LASSO的理解,可能是错误的。有人可以帮助我理解为什么这两种回归方法的方差较低吗?

1
在什么条件下,岭回归能够比普通最小二乘回归有所改善?
岭回归估计参数ββ\boldsymbol \beta中的线性模型y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta通过β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,其中λλ\lambda是正则化参数。众所周知,当有许多相关的预测变量时,它的性能通常优于OLS回归(λ=0λ=0\lambda=0)。 岭回归的存在定理说,总是存在一个参数λ∗>0λ∗>0\lambda^* > 0,使得β^λβ^λ\hat{\boldsymbol \beta}_\lambda均方误差严格小于OLS的均方误差估算β^OLS=β^0β^OLS=β^0\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0。换句话说,\ lambda的最佳值λλ\lambda始终为非零。这显然是在1970年的Hoerl和Kennard中首先得到证实的,并且在我在网上找到的许多讲义中都重复了这一点(例如,在这里和在这里)。我的问题是关于该定理的假设: 是否有关于协方差矩阵\ mathbf X ^ \ top \ mathbf X的假设X⊤XX⊤X\mathbf X^\top \mathbf X? 是否有关于\ mathbf X的维数的假设XX\mathbf X? 尤其是,如果预测变量正交(即X⊤XX⊤X\mathbf X^\top \mathbf X是对角线),或者即使\ mathbf …


2
为什么收缩真正起作用,0有什么特别之处?
该网站上已经有一篇文章谈论同一问题: 收缩为什么起作用? 但是,即使答案很流行,我也不认为这个问题的实质能够真正解决。很明显,在估计中引入一些偏差会导致方差减少,并可能提高估计质量。然而: 1)为什么引入偏差造成的损害要比方差获得的损害少? 2)为什么它总是可以工作?例如,在岭回归的情况下:存在定理 3)0(原点)有什么有趣的地方?显然,我们可以缩小到我们喜欢的任何位置(例如Stein estimator),但是它能像原点一样工作吗? 4)为什么各种通用编码方案更喜欢原点周围的位数较少?在这些假设只是更可能? 期望参考已证明的定理或确定的结果进行回答。

1
ARIMA模型的正则化
我知道线性回归模型中的LASSO,山脊和弹性网正则化类型。 题: 可以将这种(或类似的)惩罚估计应用于ARIMA建模(具有非空MA部分)吗? pmaxpmaxp_{max}qmaxqmaxq_{max} q ⩽ q 米一个Xp⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 我的其他问题是: 我们是否可以包括(,)之前的所有项,但是会惩罚系数的大小(可能一直到零)?那有道理吗? q 中号一个Xpmaxpmaxp_{max}qmaxqmaXq_{max} 如果可以,是否已在R或其他软件中实现?如果没有,那是什么麻烦? 一些相关的帖子可以在这里找到。

1
设置中的回归:如何选择正则化方法(套索,PLS,PCR,山脊)?
我想查看是否去岭回归,LASSO,主成分回归(PCR),或偏最小二乘(PLS)中的情况下有大量的变量/特征()和样品的较小数量(Ñ < p),而我的目标是预测。pppn < pn<pn np > 10 np>10np>10n 变量(和Y)以不同程度相互关联。XXXÿYY 我的问题是哪种策略最适合这种情况?为什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.