假设有两台高度相关的预测变量,并假设两者都居中和缩放(为指零,方差为1)。然后在参数向量脊罚分是β 2 1 + β 2 2而套索惩罚项是| β 1 | + | β 2 |。现在,由于该模型被认为是高度共线性的,因此x和z或多或少可以彼此替代来预测Y,因此x ,z的许多线性组合只是部分替换x,zβ21+β22∣β1∣+∣β2∣xzYx,z for z的作用与预测变量非常相似,例如 0.2 x + 0.8 x ,0.3 x + 0.7 z或 0.5 x + 0.5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5z与预测变量的性能差不多。现在来看这三个示例,在所有三种情况下,套索罚分都是相等的,分别为1,而岭罚分则不同,分别为0.68、0.58、0.5,因此,当套索罚分时,岭罚分将优先权重相等于共线性变量的权重将无法选择。这是脊线(或更普遍地,弹性网,它是套索和脊线罚分的线性组合)在共线性预测器上更好地起作用的原因之一:当数据很少给出在共线性预测器的不同线性组合之间进行选择的理由时,套索只会“徘徊”,而山脊倾向于选择相等的权重。最后可能是对将来的数据使用的更好猜测!而且,如果使用当前数据是这样,则可能会在交叉验证中显示为使用ridge获得更好的结果。
我们可以用贝叶斯的方式看待这一点:Ridge和套索暗示着不同的先验信息,而在这种情况下,ridge暗示的先验信息往往更合理。(这里的解释或多或少地是从Trevor Hastie,Robert Tibshirani和Martin Wainwright的书《带有稀疏性的统计学习-套索和泛化》中学到的,但目前无法找到直接引用)。