弹性/脊线/套索分析,然后呢?


19

我对预测器收缩/选择的弹性网程序真的很感兴趣。似乎非常强大。

但是从科学的角度来看,我不知道一旦获得系数该怎么办。我在回答什么问题?这些是对结果有最大影响的变量,并且是在验证过程中提供最佳方差/偏差比的系数吗?

与经典的p值/置信区间方法相比,这当然是一种非常具有描述性/预测性的方法。Tibshirani&Co.现在正在研究推论估计,但仍处于实验阶段。

某些人正在使用弹性网选择的变量来进行经典的推理分析,但这将消除该技术带来的方差限制。

另一个问题是,由于通过交叉验证选择了弹性网的lambda和alpha参数,因此它们具有随机可变性。因此,每次运行(例如)cv.glmnet()时,您将选择系数始终略有不同的预测变量子集。

我通过考虑将正确的lambda和alpha作为随机变量来解决此问题,然后重新运行交叉验证步骤n次以获取这些参数的分布。这样,对于每个预测变量,我将具有出现的次数,对于每个系数,我将具有结果的分布。这应该为我提供范围统计信息(如系数的sd)更通用的结果。观察以这种方式选择的lambda和alpha是否渐近地近似也很有趣,因为这将为进行推理测试开辟道路(但我不是统计学家,所以我不应该谈论我不喜欢的事情完全不了解)。

所以最后我的问题是:一旦从具有基于交叉验证的alpha和lambda的弹性网中获得了预测变量和系数,应该如何显示这些结果?您应该如何讨论它们?我们学到了什么?我们可以混淆哪个假设/概括?


我认为这个答案过于广泛/不清楚。在某些情况下,我发现您的陈述不清楚(例如,“是什么意思”,但这将消除该技术带来的方差限制。),而在另一些情况下,则被误导(例如,“ 每次运行时(例如)”) cv.glmnet(),您将选择系数始终不同的预测变量的稍有不同的子集 “-并非每次都如此,即使正确地进行了CV,通常也不会造成灾难性的
后果

我看到的关于弹性网的动机与变量聚类有关(通过zou的第2.3节“草草弹力的网纸”),在这里对此进行了更详细的介绍(通过某种不同的方法):ncbi.nlm.nih .gov / pmc / articles / PMC4011669
user795305'1

Answers:


8

这些方法-套索和弹性网-都源于特征选择和预测的问题。我认为可以通过这两个镜头找到解释。

马修·冈恩(Matthew Gunn)在回答中很好地解释了这两个目标是截然不同的,并且通常由不同的人来承担。但是,对我们来说幸运的是,我们感兴趣的方法可以在两个领域都表现良好。

功能选择

首先,让我们谈谈功能选择。我们首先应该从套索的角度激发弹性网络。也就是说,引用Hastie和Zou的话:“如果存在成对相关性非常高的一组变量,则套索倾向于仅从该组中选择一个变量,而不关心选择哪个变量。” 例如,这是一个问题,因为这意味着我们不太可能使用套索找到真正支持的元素,而只是一个与它高度相关的元素。(本文提到,这已经在LARS论文中得到了证明,我尚未阅读。)Wainwright还指出了存在相关性时支持恢复的困难,真正的支持与互补之间存在高度相关性时为0.50.5

| 一个| = | b |一种b=精氨酸一种bC=|一种|+|b|一种2+b2|一种|=|b|

顺便说一句,值得指出的是,高度相关的特征将倾向于具有非常相似的系数估计这一事实,使得我们可以检测估计的支持内的特征分组,这些分组对响应的影响类似。

预测

现在,我们继续进行预测。正如马修·冈恩(Matthew Gunn)所指出的那样,通过交叉验证选择调整参数的目的是选择一个预测误差最小的模型。由于套索选择的任何模型都可以通过弹性网(通过取)来选择,因此从某种意义上说,弹性网能够找到比套索更好地预测的模型。α=1个

Lederer,Yu和Gaynanova在没有任何假设的情况下表明,套索和弹性网都可以将其l2预测误差限制为相同的数量。它们的界限并不严格,但这可能是有趣的,因为Oracle不等式似乎是统计文献中量化估算器预测性能的标准方法-也许是因为分布是如此复杂!值得注意的是,Lederer (1)(2)在存在相关特征的情况下有一些关于套索预测的论文。

摘要

总之,感兴趣的问题是估计支持和预测之内的真正支持。对于支持恢复,有严格证明的保证(通过Wainwright),套索会在真实支持与互补之间的相关性较低的假设下,选择模型中要包含的正确特征。但是,在存在相关性的情况下,我们可以退回到弹性网,以更有可能选择真实支撑中的特征,使其成为其选择的所有特征。(请注意,我们必须在此处仔细选择调整参数。)并且,为了通过交叉验证选择调整参数时进行预测,从直觉上讲,弹性网的性能应比套索更好-特别是在存在相关性的情况下。

除了预测和一些形式,我们学到了什么?我们了解了真正的支持。

置信区间

值得指出的是,在过去的两年中,关于套索的有效推断发生了很大变化。特别是,Lee,Sun,Sun和Taylor的工作为在选择给定模型的情况下套索的系数提供了准确的推论。(在OP发表之时,关于套索的真实系数的推论结果大约是在此,并在链接的论文中得到了很好的总结。)


假设正则化协变量估计可能与我们重复研究的结果更加相似,这是正确的吗?就是说,由于正则化有助于最小化样本外预测误差,因此可以帮助最小化样本内和样本外估计之间的差异?
巴卡堡'17

1
@Bakaburg,是的,可以这么说。正则化创建具有较低方差的估计量。
user795305

9

使用交叉验证选择正则化参数时,您对弹性,岭或套索所做的工作是拟合某种线性形式以优化预测。为什么要使用这些特定的正则化参数?因为它们最适合预测新数据。收缩系数估计接近零,并引入偏差(如Ridge或Lasso所做的那样)可以减少过度拟合和收缩方差。这个想法是为了让您的惩罚参数达到适当的平衡,以优化对新数据的预测。

想象一下数据生成过程是:

ÿ一世=FX一世β+ϵ一世

令为我们对参数估计,令为我们对观测值预测 β ÿ ĴĴβ^βÿ^ĴĴ

您应该如何展示结果?这取决于您的潜在研究问题是什么!您可能要退后一步,深入思考什么你试图回答的问题。观众关心什么?你想做什么?

  • 预测?
  • 估计系数?
  • 变量选择?

区分两种类型的研究问题很重要:

  1. 您主要关心预测的问题,即您关心ÿ^Ĵ
  2. 您主要关心参数估计。β^

对于以前的预测问题,现成的机器学习技术非常强大。就像您似乎已经意识到的那样,标准的现成机器学习技术对于,参数估计问题可能非常成问题:ÿ^β^

  • 在高维设置中,许多不同的参数化将给您相同的预测。如果参数数量相对于观察值较高,则可能无法很好地估计任何单个参数。ÿ^ķñ
  • 在不同褶皱上训练的算法可能具有明显不同的参数估计。
  • 机器学习的重点是预测,而不是始终估计因果关系。(这与计量经济学相反,在计量经济学中,主要的问题通常是持续估计因果关系)。预测(估计某种功能形式)与估计因果关系不同。警察水平可能是犯罪水平的良好预测指标,但这并不意味着警察会造成犯罪。

如您所知,在解释某些机器学习参数设置为何起作用时可能会出现问题。您的听众是否对预测黑匣子感到满意?还是预测如何对您的问题至关重要?

套索和岭:使用它们的经典原因

  • 您可以将弹性网用于经典机器学习,预测问题以及您最关心的是。从某种意义上说,正则化可以让您包含更多的预测变量,但仍可以控制过度拟合。ÿ^

  • 您可以使用正则化来防止过度拟合。例如。在多项式曲线拟合的情况下,岭回归可以很好地工作。

  • 正如@Benjamin在回答中指出的那样,Lasso也可以用于变量选择。在某些规则性条件下,套索将始终选择适当的模型:不相关的系数将设置为零。

Lasso和Ridge 的和惩罚分别使系数估计偏向零。如果偏差很大,那么当您尝试解释系数估计时,这可能是一个严重的问题。为了获得标准的错误估计,您需要执行类似引导程序的操作;没有简单的封闭式解决方案(我知道)。Ridge,套索和弹性网与常规OLS回归相似,但是正则化和变量选择使推断有很大不同。大号1个大号2

我要继续说的是,如果没有更多您要弄清楚的内容的上下文,很难解释运行岭回归,套索或弹性网的结果!


Sendhil Mullainathan教授在2017年1月的AFA会议上发表了有关机器学习的演讲,这激发了这篇文章的部分内容。


3
我认为这种想法是有缺陷的。它基于以下假设:潜在现象足够简单,以至于人类无法理解。高维模型大多数时候过于复杂,以至于人类无法理解,但是它们非常适合大规模人工智能。实际上,最好的预测器是对现象的最佳解释,无论您能否理解。
Cagdas Ozgenc

2
@CagdasOzgenc我认为这是有道理的,有些功能非常复杂,难以描述给人,但是机器可以理解和学习(例如棋盘评估)。在这种情况下,最好举起手来,甚至不要试图解释机器学到的东西。另一方面,在某些情况下,例如药物试验,可能会产生因果关系,您会尝试在存在许多混杂因素的情况下估算某些平均效果,选择效果等。从某种意义上说,这些都是不同的问题,需要不同的技术。
马修·冈恩

1
@Benjamin一个潜在的问题是,OP最直接要求的是对弹性网偏向零系数的可理解的解释可能不存在。假设您有10,000个预测变量和5,000个观测值。总的来说,您的系数在预测方面可能会做得很好,但是就每个系数而言,每个系数可能都是估计不好的垃圾。我认为值得退后一步,问基本的研究问题是什么?目的是什么?是在寻找预测还是估计一些系数?还是别的?ÿ^
马修·冈恩
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.