为什么ridge回归不能提供比LASSO更好的解释性?


12

我已经对ridge回归和LASSO的利弊有了一个想法。

对于LASSO,L1惩罚项将产生稀疏系数矢量,可以将其视为特征选择方法。但是,LASSO有一些限制。如果特征具有高度相关性,则LASSO将仅选择其中之一。此外,对于 >问题,LASSO将最多选择参数(和分别是观测值和参数的数量)。与岭回归相比,就可预测性而言,这些经验使LASSO成为次优方法。Ñ Ñ Ñ ppnnnp

对于岭回归,通常可以提供更好的可预测性。但是,它的可解释性不如LASSO。

上面的解释通常可以在机器学习/数据挖掘的教科书中找到。但是,我仍然对两件事感到困惑:

  1. 如果我们对特征范围进行归一化(例如,介于0和1之间,或者均值和单位方差为零),并进行岭回归,则仍可以通过对系数的绝对值进行排序来了解特征的重要性(最重要的特征具有系数的最大绝对值)。尽管我们没有明确选择功能,但使用ridge回归并不会丧失可解释性。同时,我们仍然可以实现较高的预测能力。那为什么我们需要LASSO?我在这里想念什么吗?

  2. LASSO是否因其特征选择特性而被首选?据我了解,我们之所以需要特征选择,是因为它具有泛化能力和易于计算的能力。

    为了简化计算,如果我们要执行某些NLP任务,我们不想将所有一百万个特征都馈入模型,因此我们首先删除一些显然无用的特征以降低计算成本。但是,对于LASSO,只有在将所有数据输入模型后才能知道特征选择结果(稀疏矢量),因此就降低计算成本而言,我们没有从LASSO中受益。我们只能更快地进行预测,因为现在我们仅将特征子集(例如一百万个中的500个)馈入模型以生成预测结果。

    如果LASSO因其具有泛化能力而被首选,那么我们也可以使用ridge回归(或任何其他类型的正则化)来实现相同的目标。为什么我们再次需要LASSO(或弹性网)?为什么我们不能只坚持岭回归?

有人可以请问一下吗?谢谢!


3
与岭回归相比,就可预测性而言,这些经验使LASSO成为次优方法。我不同意。我不认为LASSO在预测方面通常比脊柱更糟(或更好)。正如@jona在他/她的回答中所说,您可能会遇到某些功能确实不属于模型的情况,然后LASSO将更有效地将其淘汰。但是,使用ridge会包含所有功能,而不相关的功能会污染预测。这就是为什么我们需要弹性网-让数据确定和的适当组合。L 2L1L2
理查德·哈迪

3
我还想知道哪些教科书会说诸如“岭回归”之类的东西总体上具有更好的可预测性(据我所知,与LASSO相反,与无限制回归相反。)也许通用的用法并不那么通用。另外,正则化方法应该产生多少可解释性?(此外,Shmueli的“ To Explain or To Predict”(2010年)虽然不是直接相关,但也很不错。)
Richard Hardy

1
@RichardHardy,你是对的。现在,我更加仔细地阅读了教科书,发现第223页的“ R 回归和套索不会普遍地主导另一方,R的统计学习及其应用,Gareth James等人
Brad Li

@RichardHardy,最初我在LIBLINEAR常见问题解答上发现了有关L1正则化的类似论点:csie.ntu.edu.tw/~cjlin/liblinear/…–
Brad Li

在一个或两个实际例子中,使用ridge和Lasso能否解决这些差异?(但它们不容易比较-绘制拟合与稀疏?)
denis

Answers:


16
  1. 如果订购100万个脊缩,缩放但非零的特征,则必须做出某种决定:您将查看n个最佳预测变量,但是n是什么?LASSO以一种有原则的,客观的方式解决了这个问题,因为对于路径上的每一步(通常,您会通过交叉验证等方法确定一个点),只有m个非零的系数。

  2. 很多时候,您将在一些数据上训练模型,然后将其应用于尚未收集的某些数据。例如,您可以将模型适合50.000.000封电子邮件,然后在每个新电子邮件中使用该模型。的确,您将在前50.000.000封邮件的全部功能集中使用它,但对于随后的每封电子邮件,您将处理一个更稀疏,更快,内存效率更高的模型。您甚至都不需要收集有关已删除功能的信息,如果要提取的功能非常昂贵(例如通过基因分型),这可能会非常有用。

例如安德鲁·盖尔曼(Andrew Gelman)提出的关于L1 / L2问题的另一种观点是,您经常会直觉您的问题可能是什么样的。在某些情况下,现实可能是真正稀疏的。也许您已经测量了数百万个基因,但是似乎只有30.000个基因真正决定了多巴胺的代谢。在这种情况下,L1可以更好地解决该问题。
在其他情况下,现实可能很密集。例如,在心理学中,“一切(在某种程度上)都与一切相关”(Paul Meehl)。苹果与橙子的偏好可能确实与政治倾向相关,甚至与智商相关。正则化在这里仍然有意义,但是真正的零影响应该很少,因此L2可能更合适。


谢谢。您的解释很清楚!我仍然对里奇的可解释性感到困惑。是否可以通过根据变量的绝对值对变量进行排序来定义特征重要性?例如,如果我们使用获得以下结果,就特征重要性而言,我们可以说,因为我们已经规范化了范围内的特征。因此,我们仍然可以使用ridge实现可解释性。 X 2 > X 1 > X 3 [ 0 1 ]
y=2x1+3x2x3
x2>x1>x3[0,1]
布拉德·李

当然,您可以对它们进行排序,但是您仍然必须对要查看的子集做出某种决定。
乔纳

6
这种说法的另一种方式是:脊线可能有助于特征选择,而LASSO 可以进行特征选择。
jona 2015年

1
@brad除了jona(+1)的出色答案外,请注意,通过其标准化回归系数判断特征重要性是一种可能的方法,但不是唯一的一种方法。有不同的“特征重要性”度量,它们很容易给出矛盾的结果。请参阅此线程进行长期讨论:stats.stackexchange.com/questions/64010
变形虫说恢复莫妮卡

1

如果目标取决于许多功能,则可解释性会降低。如果我们可以减少特征数量并保持准确性,则它会增加。Ridge正则化不具有减少要素数量的能力。但是套索有能力。在以下链接中直观地解释了这种情况的发生:

点击关于数据科学的文章

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.