到目前为止,我已经通过查看相关表并消除了超过某个阈值的变量,来删除了共线变量作为数据准备过程的一部分。有一种更可接受的方式吗?此外,我知道一次只查看两个变量之间的相关性并不理想,像VIF这样的测量考虑了多个变量之间的潜在相关性。如何系统地选择不表现出多重共线性的变量组合?
我将数据存储在熊猫数据框中,并且正在使用sklearn的模型。
3
您可能要考虑偏最小二乘回归或主成分回归。其中之一可能受支持。
—
spdrnl
我知道了。因此,如果我理解正确,那么运行PCA会给我一组独立的主成分,然后将其用作模型的协变量,因为每个主成分都不与其他共线性?
—
orange1 2015年
究竟。某些组件可能变得无关紧要。这比删除变量更容易。
—
spdrnl
嗯,所以我的目的主要是为了解释性目的而不是预测性目的运行模型。如何解释将主成分用作协变量的模型?
—
orange1 2015年
在这种情况下,这无济于事,因为解释组件在某种程度上是一门黑手艺。
—
spdrnl 2015年