与弹性网有关的混乱


10

我正在阅读与弹性网有关的这篇文章。他们说他们使用弹性网,因为如果我们仅使用套索,它倾向于在高度相关的预测变量中仅选择一个预测变量。但这不是我们想要的。我的意思是,它使我们免于多重共线性的麻烦,不是吗。

有什么建议/澄清吗?

Answers:


11

假设两个预测变量对响应影响很大,但是在构建模型的样本中它们之间的相关性很高。如果从模型中删除一个,对于那些预测变量之间相关性不高的相似群体的样本,预测效果将不佳。

如果要在存在多重共线性的情况下提高系数估计的精度,则必须引入一个小的偏差,通过较大的方差减小来抵消它。一种方法是完全删除预测变量(使用LASSO,或者在过去使用逐步方法),这会将其系数估计设置为零。另一个方法是对所有估算值加一点偏差,即采用岭回归,或者在过去,采用前几个主要成分进行回归。前者的一个缺点是,如果将模型用于预测对预测变量的响应而不是原始样本中发生的预测,这是非常不安全的,因为预测变量倾向于被排除在外,仅仅是因为它们与其他变量的使用不多,几乎共线,预测变量。(并不是说外推法永远是绝对安全的。)弹性网是两者的混合体,如@ user12436所解释的,并且倾向于将相关预测变量组保留在模型中。


为什么在这个新样本中不能很好地预测?
user31820 2013年

1
因为模型缺少重要的预测因子。
Scortchi-恢复莫妮卡

2
如果两个预测变量在总体的一个代表性样本中相关,那么在另一个样本中它们是否不相关?如果您对“与原始样本中发生的数据不同”的数据使用模型,那不是对任何模型的无效使用吗?
马修·德鲁里

@MatthewDrury:好吧,如果模型是“正确的”-如果没有值得观察的未观察到的混杂因素,并且如果函数形式是可推断的-则样本中预测变量的分布无关紧要(尽管它决定了预测变量的精度)估计和预测)。因此,在一个极端情况下,您可能会基于对因果关系进行良好控制的实验研究得出的数据来建立机械模型。另一种是建立在从观察性研究中收集的数据上的经验模型,这些数据只是一堆易于测量的变量。
Scortchi-恢复莫妮卡

那句话:“ 在旧社会,逐步方法。让我微笑:d(+1明显,这是一个很好的答案)
usεr11852

4

但这不是我们想要的。我的意思是这使我们免于多重共线性的麻烦,不是吗。

是! 和不。弹性网是两种正则化技术的组合,L2正则化(用于岭回归)和L1正则化(用于LASSO)。

套索产生自然稀疏的模型,即,大多数可变系数将缩小为0,并有效地排除在模型之外。因此,最不重要的变量要先缩小,然后再缩小其他变量,这与ridge不同,而ridge的所有变量都被缩小,而没有一个变量真正被缩小为0。

弹性网使用这两种方法的线性组合。Hastie在讨论该方法时提到的特定情况是在大p小n的情况下。这意味着:具有高维数据,观测值相对较少。在这种情况下,LASSO(据报道)只会选择最多n个变量,而消除所有其余变量,请参见Hastie的论文

它总是取决于实际的数据集,但是您可以想象,您并不总是希望模型中的变量数的上限等于或小于观察值的上限。


但是多重共线性呢?弹性网确实允许选择多个共线特征,这不是很好吗?
user31820 2013年

我不认为许多真实的数据集具有完美的多重共线性变量。高度相关的变量可能几乎是共线的,这仍然是一个问题,但是如果它们对于模型都很重要,您可能会愿意接受。
意思就是意思

上面添加的链接指向yahoo.com。另外,[本文](onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/…)是Zou和Hastie(弹性网一)撰写的
KarthikS

2

Lasso和Elastic Net都是在高维数据设置中进行变量或特征选择的有效方法(比患者或样本多得多的变量;例如20,000个基因和500个肿瘤样本)。

(已被Hastie等人证明),当数据高度相关时,Elastic Net可以胜过Lasso。套索可能只选择相关变量之一,而不管选择哪个变量。当要验证独立数据集中的选定变量时,这可能是个问题。Lasso选择的变量可能不是所有相关变量中最好的预测变量。Elastic Net通过平均高度相关的变量来解决此问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.