关联特征后,为什么Lasso或ElasticNet的性能优于Ridge


17

我有一组150个功能,其中许多功能彼此之间高度相关。我的目标是预测范围为1-8的离散变量的值。我的样本大小为550,我正在使用10倍交叉验证。

AFAIK,在正则化方法(套索,ElasticNet和Ridge)中,Ridge更严格地关联特征之间。这就是为什么我期望使用Ridge可以得到更准确的预测的原因。但是,我的结果表明,Lasso或Elastic的平均绝对误差在0.61左右,而岭回归的平均分误差是0.97。我不知道对此会有什么解释。这是因为我拥有许多功能,而Lasso却因为选择了某种功能而摆脱了多余的功能,因此性能更好了吗?


1
您为什么认为ridge应该表现更好?您的样本量是多少?
bdeonovic '17

1
“更严格地回归”是什么意思?
bdeonovic '17

Answers:


21

假设有两台高度相关的预测变量,并假设两者都居中和缩放(为指零,方差为1)。然后在参数向量脊罚分是β 2 1 + β 2 2而套索惩罚项是| β 1 | + | β 2 |。现在,由于该模型被认为是高度共线性的,因此xz或多或少可以彼此替代来预测Y,因此x z的许多线性组合只是部分替换x,zβ12+β22β1+β2xzYx,z for z的作用与预测变量非常相似,例如 0.2 x + 0.8 x 0.3 x + 0.7 z 0.5 x + 0.5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5z与预测变量的性能差不多。现在来看这三个示例,在所有三种情况下,套索罚分都是相等的,分别为1,而岭罚分则不同,分别为0.68、0.58、0.5,因此,当套索罚分时,岭罚分将优先权重相等于共线性变量的权重将无法选择。这是脊线(或更普遍地,弹性网,它是套索和脊线罚分的线性组合)在共线性预测器上更好地起作用的原因之一:当数据很少给出在共线性预测器的不同线性组合之间进行选择的理由时,套索只会“徘徊”,而山脊倾向于选择相等的权重。最后可能是对将来的数据使用的更好猜测!而且,如果使用当前数据是这样,则可能会在交叉验证中显示为使用ridge获得更好的结果。

我们可以用贝叶斯的方式看待这一点:Ridge和套索暗示着不同的先验信息,而在这种情况下,ridge暗示的先验信息往往更合理。(这里的解释或多或少地是从Trevor Hastie,Robert Tibshirani和Martin Wainwright的书《带有稀疏性的统计学习-套索和泛化》中学到的,但目前无法找到直接引用)。


4
关于ridge在将来的数据上更好地工作的可能性的好点。经常会错失当前数据中交叉验证的错误和新数据有用性之间的区别。对于后者的一些估计,OP可以在数据的多个自举样本上重复整个LASSO,弹性网和岭模型构建过程,然后在应用于完整数据集时检查错误。至少测试了模型构建过程。
EdM

对我来说,不很明显为什么为共线数据选择相等的权重为什么有利?有人可以详细说明这一点吗?
拉蒙·马丁内斯

3

套索和山脊之间最重要的区别是套索自然会做出选择,尤其是协变量之间的相关性很高。在没有看到拟合系数的情况下无法真正确定,但是很容易想到在这些相关特征中,许多根本就没有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.