我有19个变量的1000多个样本数据集。我的目标是根据其他18个变量(二进制和连续变量)预测一个二进制变量。我非常有信心6个预测变量与二进制响应相关联,但是,我想进一步分析数据集并寻找我可能会缺少的其他关联或结构。为了做到这一点,我决定使用PCA和群集。
当对归一化的数据运行PCA时,为了保留85%的差异,需要保留11个组件。 通过绘制对图,我得到了:
我不确定下一步是什么...我在pca中看不到明显的模式,我想知道这是什么意思,以及它是否可能是由于某些变量是二进制变量而引起的。通过运行具有6个聚类的聚类算法,我得到以下结果,尽管有些斑点看起来比较突出(黄色斑点),但这并不是一个确切的改进。
您可能会说,我不是PCA方面的专家,但是我看到了一些教程,以及如何了解高维空间中的结构是多么强大。使用著名的MNIST数字(或IRIS)数据集,效果很好。我的问题是:我现在应该怎么做才能使PCA更加有意义?聚类似乎没有任何用处,我如何判断PCA中没有模式,或者接下来我该怎么做才能在PCA数据中找到模式?