做PCA时要减少多少尺寸?


12

如何为PCA选择K?K是要向下投影的尺寸数。唯一的要求是不要丢失太多信息。我了解这取决于数据,但我希望更多地了解有关选择K时应考虑哪些特征的简单概述。


取决于可容忍的数据丢失,也取决于问题陈述!
Dawny33

我同意以下两个答案。但是,您是否知道有一种简单的方法来量化信息损失,即使用协方差矩阵的SVD对角线?
yuqian

Answers:


13

执行PCA算法后,您将获得主要成分,并按其持有的信息量进行排序。如果保留整个设置,则不会丢失任何信息。一张一张地删除它们并将它们重新投影到原始空间中,就可以计算出信息损失。您可以针对删除的主要组件数量绘制此信息损失图,并在有意义的地方查看它是否构成“弯头”。但是,这在很大程度上取决于您的用例。


(+1)是的,就这么简单:)
Dawny33

3

我通常检查K值所占信息的百分比。假设在8个字段中,有2个保存了90%的信息。因此,没有必要包括其他6或5个字段。如果您知道mnist数据,则在768个输入中,我只使用了250个,将我的准确度从83%提高到96%。事实是更多的维度带来了更多的问题。所以把它们剪掉。我通常只选择仅持有90%信息的K,它对我有用。


您好。我有一个类似的问题,我想使用x%的信息,但不确定如何执行此操作?我打算使用IPCA做到这一点,我可以将n_components = None保留下来,但是然后我如何确定具有x%数据的功能是什么?
阿森纳狂热者队
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.