Questions tagged «lasso»

回归模型的正则化方法将系数缩小为零,使其中一些等于零。因此套索执行特征选择。

3
在进行统计推断时使用正则化
我了解建立预测模型时进行正则化的好处(偏差与方差,防止过度拟合)。但是,我想知道当回归模型的主要目的是对系数进行推断(看看哪些预测变量具有统计学意义)时,也进行正则化(套索,岭,弹性网)是否是一个好主意。我很想听听人们的想法以及与之相关的任何学术期刊或非学术文章的链接。

1
LASSO假设
在LASSO回归方案中, y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon, LASSO估计值由以下优化问题给出 minβ||y−Xβ||+τ||β||1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 是否有关于分布假设?ϵϵ\epsilon 在OLS场景中,人们会期望ϵϵ\epsilon是独立的并且是正态分布的。 在LASSO回归中分析残差是否有意义? 我知道LASSO估计可以作为\ beta_j的独立双指数先验下的后验模式获得βjβj\beta_j。但是我还没有找到任何标准的“假设检查阶段”。 提前致谢 (:

2
从贝叶斯角度看LASSO和ridge:调整参数如何?
惩罚性回归估计量(例如LASSO和ridge)据说与具有某些先验的贝叶斯估计量相对应。我猜(因为我对贝叶斯统计知识还不够了解),对于固定的调整参数,存在一个具体的对应先验。 现在,常客可以通过交叉验证来优化调整参数。是否有这样做的贝叶斯等效项,并且完全使用吗?还是贝叶斯方法在查看数据之前有效地调整了调整参数?(我猜后者会损害预测性能。)

1
如何处理LASSO中的分类预测变量
我运行的LASSO具有一些分类变量预测变量和一些连续变量预测变量。我对分类变量有疑问。我了解的第一步是将它们分成假人,对它们进行标准化以进行公平的惩罚,然后回归。处理虚拟变量有几种选择: 包括每个因素中除一个假人以外的所有假人,将其作为参考水平。虚拟系数的解释是相对于排除的“参考”类别而言的。截距现在是参考类别的平均响应。 将每个因素中的变量分组,以便将它们全部排除或全部排除。我相信这就是@Glen_b 在这里建议的内容: 通常,是的,您将所有因素放在一起。有几个R软件包可以做到这一点,包括glmnet 包括各个层面,如经@Andrew中号建议在这里: 您可能还需要更改默认的对比功能,默认情况下,该功能不使用每个因子的一个级别(处理编码)。但是由于套索罚分,对于可识别性而言,这不再是必需的,并且实际上使所选变量的解释更加复杂。为此,请设置 contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 现在,无论选择了哪个因子水平,您都可以认为它暗示着这些特定水平相对于所有省略的水平都很重要。在机器学习中,我已经看到这种编码称为“单热编码”。 问题: 在每种方法下,截距和系数的解释是什么? 选择其中之一需要考虑哪些因素? 我们是否要对虚拟系数进行缩放,然后将其解释为从关到开的变化?


3
使用套索进行变量选择后的推论
我正在使用Lasso在相对较低的尺寸设置(n >> p)中进行特征选择。拟合套索模型后,我想使用具有非零系数的协变量来拟合无惩罚的模型。我这样做是因为我想要无偏差的估计,而套索不能给我。我还希望无偏估计的p值和置信区间。 我很难找到有关该主题的文献。我发现的大多数文献都是关于将置信区间放在套索估计上,而不是重新拟合的模型。 根据我的阅读,仅使用整个数据集来重新拟合模型会导致不切实际的p值/ std错误。目前,样本分割(按照Wasserman和Roeder(2014年)或Meinshausen等人(2009年)的样式)似乎是一个不错的选择,但我正在寻找更多建议。 有没有人遇到这个问题?如果是这样,请您提供一些建议。

2
关联特征后,为什么Lasso或ElasticNet的性能优于Ridge
我有一组150个功能,其中许多功能彼此之间高度相关。我的目标是预测范围为1-8的离散变量的值。我的样本大小为550,我正在使用10倍交叉验证。 AFAIK,在正则化方法(套索,ElasticNet和Ridge)中,Ridge更严格地关联特征之间。这就是为什么我期望使用Ridge可以得到更准确的预测的原因。但是,我的结果表明,Lasso或Elastic的平均绝对误差在0.61左右,而岭回归的平均分误差是0.97。我不知道对此会有什么解释。这是因为我拥有许多功能,而Lasso却因为选择了某种功能而摆脱了多余的功能,因此性能更好了吗?

2
为什么脊回归不像套索那样将某些系数缩小为零?
在解释LASSO回归时,通常使用菱形和圆形图。据说因为LASSO中约束的形状是菱形,所以获得的最小二乘解可能会触及菱形的角,从而导致某些变量的收缩。但是,在山脊回归中,因为它是一个圆,所以它通常不会接触轴。我不明白为什么它不能接触轴,或者收缩某些参数的可能性比LASSO低。最重要的是,为什么LASSO和ridge的方差比普通的最小二乘法低?以上是我对ridge和LASSO的理解,可能是错误的。有人可以帮助我理解为什么这两种回归方法的方差较低吗?

1
高维回归:为什么
我正在尝试阅读有关高维回归领域的研究;当大于,即。似乎经常出现在回归估计量的收敛速度方面。Ñ p > > Ñ 日志p / Ñpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n 例如,这里的等式(17)表示套索拟合满足 1β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. 通常,这还意味着logplog⁡p\log p应该小于nnn。 关于\ log p / n的比例为何logp/nlog⁡p/n\log p/n如此突出,是否有任何直觉? 而且,从文献中看来,当\ log p \ geq n时,高维回归问题变得复杂logp≥nlog⁡p≥n\log p \geq n。为什么会这样呢? 有没有很好的参考资料来讨论ppp和nnn应增长多快的问题?

1
为什么“宽松套索”与标准套索不同?
如果我们开始与一组数据的,应用套索给它,将获得的溶液β 大号,我们可以再次应用套索到数据集(X 小号,ÿ ),其中小号是一组非零的指标β 大号,以得到溶液,β - [R 大号,被称为“放松套索”的解决方案(如果我错了指正!)。将溶液β 大号必须满足Karush-库恩-塔克(KKT)条件下对(X ,ÿ )(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y),但考虑的KKT条件的形式它是否也满足这些条件?如果是这样,第二次做LASSO有什么意义?(XS,Y)(XS,Y)(X_S, Y) 该问题是针对以下问题的后续措施: 做“双套索”或两次执行套索的优势?


1
需要回归中的数据居中和标准化
考虑采用某种正则化的线性回归:例如,找到使| |最小的。| A x − b | | 2 + λ | | x | | 1个xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常,将A的列标准化为具有零均值和单位范数,而的中心为具有零均值。我想确定我对标准化和居中原因的理解是否正确。bbb 通过使和b列的均值为零,我们不再需要拦截项。否则,目标将是| | A x − x 0 1 − b | | 2 + λ | | x | | 1。通过使A的列的范数等于1,我们消除了仅由于A的一列具有很高的范数而在x中获得较低系数的情况的可能性,这可能导致我们错误地得出结论: A不能很好地“解释” x。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx 这种推理并不严格,而是凭直觉,这是正确的思维方式吗?

2
为什么L2范数损失有唯一的解决方案,而L1范数损失可能有多个解决方案?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ 如果您查看这篇文章的顶部,那么作者会提到L2规范具有唯一的解决方案,而L1规范可能具有很多解决方案。我从正则化的角度理解了这一点,但从在损失函数中使用L1范数或L2范数的角度理解。 如果查看标量x(x ^ 2和| x |)的函数图,则可以很容易地看到两者都有一个唯一的解决方案。

1
ARIMA模型的正则化
我知道线性回归模型中的LASSO,山脊和弹性网正则化类型。 题: 可以将这种(或类似的)惩罚估计应用于ARIMA建模(具有非空MA部分)吗? pmaxpmaxp_{max}qmaxqmaxq_{max} q ⩽ q 米一个Xp⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 我的其他问题是: 我们是否可以包括(,)之前的所有项,但是会惩罚系数的大小(可能一直到零)?那有道理吗? q 中号一个Xpmaxpmaxp_{max}qmaxqmaXq_{max} 如果可以,是否已在R或其他软件中实现?如果没有,那是什么麻烦? 一些相关的帖子可以在这里找到。

1
设置中的回归:如何选择正则化方法(套索,PLS,PCR,山脊)?
我想查看是否去岭回归,LASSO,主成分回归(PCR),或偏最小二乘(PLS)中的情况下有大量的变量/特征()和样品的较小数量(Ñ < p),而我的目标是预测。pppn < pn<pn np > 10 np>10np>10n 变量(和Y)以不同程度相互关联。XXXÿYY 我的问题是哪种策略最适合这种情况?为什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.