何时删除相关变量


Answers:


8

您不想删除所有相关变量。仅当相关性如此强以至于它们不传达额外的信息时。毕竟,这既是相关强度的函数,又是您拥有多少数据以及相关变量之间的细微差别是否告诉您有关结果的信息。

您可以在执行任何模型之前先告诉前两个,最后一个则不能。因此,基于前两个考虑因素的组合来删除变量可能是非常合理的(即,即使原则上额外的变量可能包含一些有用的信息,您也无法分辨出给定的相关强度和多少数据在进行任何建模/功能工程之前)。最后一点实际上只能在进行一些建模之后才能评估。


2

很奇怪没有其他人提到可解释性

如果您只关心performance,那么删除两个相关变量毫无意义,除非correlation = 1或-1,在这种情况下,其中一个变量是多余的。

但是,如果担心可解释性,那么即使相关性很小,也应删除其中一个变量。对于线性模型尤其如此。线性回归假设之一是预测变量缺乏完美的多重共线性。

如果A与B相关,那么您将无法解释A或B的系数。要想知道为什么,请想象当A = B(完全相关)时的极端情况。然后,模型y = 100 * A + 50 * B与模型y = 5 * A + 10 * B或y = -2000 * A + 4000 * B相同。最小平方最小化问题的可能解决方案中存在多个均衡,因此您不能“信任”任何一个。

其他模型也可能发生类似的情况。例如,如果A与B高度相关,那么如果决策树选择A的时间是B的两倍,则不能说A比B更重要。如果重新训练模型,则可能发生相反的情况。




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.