可视化一百万个PCA版本


31

是否有可能以比汇总表更深入的方式可视化主成分分析的输出?当观察的数量很大,例如〜1e4时,可以这样做吗?是否可以在R [欢迎其他环境]中进行?


2
几个问题:您有多少组件?除了样本大小之外,是否有什么需要使此PCA输出的显示与可能要处理的其他连续变量的显示不同?您是否正在尝试对比不同组的分数,如果有的话,是多少?通常,您希望通过显示器实现什么?
rolando2 2011年

Answers:


53

双标图是PCA可视化的结果,一个有用的工具。它使您可以同时可视化主成分分数和方向。如果进行10,000次观察,您可能会遇到过度绘图的问题。Alpha混合可以帮助您。

这是来自UCI ML存储库葡萄酒数据的PC双图:

来自UCI ML存储库的Wine数据的PC Biplot

这些点对应于每个观察的PC1和PC2分数。箭头表示变量与PC1和PC2的相关性。白色圆圈表示箭头的理论最大范围。椭圆是数据中3个葡萄酒品种中每个品种的68%数据椭圆。

我已经在此处提供了用于生成此图代码


5
真正的炸药。
rolando2 2011年

1个

p×2VVVŤ

V

4

Wachter图可以帮助您可视化PCA的特征值。它本质上是特征值对Marchenko-Pastur分布的QQ图。我在这里有一个例子:Wachter图显示单个主导特征值有一个主导特征值落在Marchenko-Pastur分布之外。这种情节的有用性取决于您的应用程序。


7
在此处了解更多信息可能会有所帮助(也许有一些其他说明和/或一些有用的链接)。什么是Marchenko-Pastur分布?它与PCA有何关系?无论结果是否成立,这对您的结果意味着什么?(etc)
gung-恢复莫妮卡

0

您还可以使用心理软件包。

它包含一个plot.factor方法,该方法将以散点图矩阵的形式相互绘制不同的组件。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.