Answers:
B和E都是从V派生的。B和E显然不是彼此真正的“独立”变量。在这里真正重要的基础变量是V。在这种情况下,您可能不应该同时使用B和E并仅保留V。
在更普遍的情况下,当您有两个高度相关的自变量时,您肯定应该删除其中一个,因为您遇到了多重共线性难题,并且与两个高度相关的变量相关的回归模型的回归系数将不可靠。同样,用简单的英语来说,如果两个变量之间的相关性很高,它们显然会为回归模型提供几乎完全相同的信息。但是,通过同时包含这两者,您实际上在削弱模型。您没有添加增量信息。相反,您正在为模型注入噪声。不好
您可以在模型中保留高度相关的变量的一种方法是使用主成分分析(PCA)模型而不是回归模型。制作PCA模型是为了摆脱多重共线性。需要权衡的是,您最终会在模型中拥有两个或三个主要组成部分,这些主要组成部分通常只是数学构造,并且在逻辑上几乎是不可理解的。因此,每当您必须将结果提交给外部人员(例如管理层,监管机构等)时,PCA便经常被废弃为一种方法。PCA模型创建了难以解释的神秘黑匣子。
从机器学习者的角度来看,这是一个答案,尽管我恐怕会因此而被真正的统计学家击败。
我有可能只是“扔掉”其中一个变量吗?
好吧,问题是您要使用哪种类型的模型进行预测。这取决于...
有时,我们会让机器学习者甚至进行遗传优化,以找到一组预测变量的最佳算术组合。
如果D不是常数,则由于D的变化,B和E实际上是两个不同的变量。高相关性表明D在整个训练数据中实际上都是恒定的。如果是这种情况,则可以丢弃B或E。