我有50个样本的数据集。每个样本均由11个(可能相关的)布尔特征组成。我想介绍一下如何在2D图上可视化这些样本,并检查50个样本中是否存在聚类/分组。
我尝试了以下两种方法:
(a)在50x11矩阵上运行PCA,并选择前两个主要成分。将数据投影到2D图上并运行简单的K均值以识别聚类。
(b)构造一个50x50(余弦)相似度矩阵。运行频谱聚类以降低维数,然后再次进行K均值。
直接进行PCA与使用相似性矩阵的特征值之间在概念上有什么区别?这个比那个好吗?
此外,还有更好的方法以2D形式显示此类数据吗?由于我的样本大小始终限制为50,并且功能集始终在10-15范围内,因此我愿意即时尝试多种方法并选择最佳方法。
相关问题: 通过聚类或PCA对样本进行分组