在机器学习课程中,我了解到PCA(主成分分析)的一种常见用法是加快其他机器学习算法的速度。例如,假设您正在训练逻辑回归模型。如果您有一个从1到n 的训练集,结果证明向量x的维数很大(比如说维数),可以使用PCA获得较小的维度(比方说k个维度)特征向量z。然后,您可以在的训练集上从1到n 训练逻辑回归模型。训练此模型将更快,因为特征向量的维数较小。(z (i ),y (i ))
但是,我不明白为什么不能仅通过随机选择k个特征并消除其余特征来将特征向量的维数减小为k个维。
z向量是特征向量的线性组合。由于z向量限制在k维表面上,因此您可以将ak个消除的特征值写为k个剩余特征值的线性函数,因此所有z都可以通过k个特征的线性组合来形成。因此,在具有消除特征的训练集上训练的模型是否不应该与在其维度被PCA缩减的训练集上训练的模型具有相同的功效?它是否仅取决于模型的类型以及是否取决于某种线性组合?