Answers:
假设两个预测变量对响应影响很大,但是在构建模型的样本中它们之间的相关性很高。如果从模型中删除一个,对于那些预测变量之间相关性不高的相似群体的样本,预测效果将不佳。
如果要在存在多重共线性的情况下提高系数估计的精度,则必须引入一个小的偏差,通过较大的方差减小来抵消它。一种方法是完全删除预测变量(使用LASSO,或者在过去使用逐步方法),这会将其系数估计设置为零。另一个方法是对所有估算值加一点偏差,即采用岭回归,或者在过去,采用前几个主要成分进行回归。前者的一个缺点是,如果将模型用于预测对预测变量的响应而不是原始样本中发生的预测,这是非常不安全的,因为预测变量倾向于被排除在外,仅仅是因为它们与其他变量的使用不多,几乎共线,预测变量。(并不是说外推法永远是绝对安全的。)弹性网是两者的混合体,如@ user12436所解释的,并且倾向于将相关预测变量组保留在模型中。
但这不是我们想要的。我的意思是这使我们免于多重共线性的麻烦,不是吗。
是! 和不。弹性网是两种正则化技术的组合,L2正则化(用于岭回归)和L1正则化(用于LASSO)。
套索产生自然稀疏的模型,即,大多数可变系数将缩小为0,并有效地排除在模型之外。因此,最不重要的变量要先缩小,然后再缩小其他变量,这与ridge不同,而ridge的所有变量都被缩小,而没有一个变量真正被缩小为0。
弹性网使用这两种方法的线性组合。Hastie在讨论该方法时提到的特定情况是在大p小n的情况下。这意味着:具有高维数据,观测值相对较少。在这种情况下,LASSO(据报道)只会选择最多n个变量,而消除所有其余变量,请参见Hastie的论文。
它总是取决于实际的数据集,但是您可以想象,您并不总是希望模型中的变量数的上限等于或小于观察值的上限。