Answers:
很奇怪没有其他人提到可解释性。
如果您只关心performance,那么删除两个相关变量毫无意义,除非correlation = 1或-1,在这种情况下,其中一个变量是多余的。
但是,如果担心可解释性,那么即使相关性很小,也应删除其中一个变量。对于线性模型尤其如此。线性回归的假设之一是预测变量中缺乏完美的多重共线性。
如果A与B相关,那么您将无法解释A或B的系数。要想知道为什么,请想象当A = B(完全相关)时的极端情况。然后,模型y = 100 * A + 50 * B与模型y = 5 * A + 10 * B或y = -2000 * A + 4000 * B相同。最小平方最小化问题的可能解决方案中存在多个均衡,因此您不能“信任”任何一个。
其他模型也可能发生类似的情况。例如,如果A与B高度相关,那么如果决策树选择A的时间是B的两倍,则不能说A比B更重要。如果重新训练模型,则可能发生相反的情况。
您应该考虑检查VIF(方差膨胀因子)。尝试删除具有较高VIF的功能。通常,VIF最好低于10。
没关系 但是为了效率,先进行特征工程。
确定协方差,并使用最高的集合进行初始工作。