在最近的一项作业中,我们被告知在MNIST数字上使用PCA将尺寸从64(8 x 8图像)减小到2。然后,我们不得不使用高斯混合模型对数字进行聚类。仅使用2个主要成分的PCA不会产生不同的聚类,因此该模型无法产生有用的分组。
但是,使用带有2个组件的t-SNE,可以更好地分离群集。当将高斯混合模型应用于t-SNE组件时,会产生更多不同的簇。
在下面的图像对中,可以看到具有2个分量的PCA和具有2个分量的t-SNE的差异,其中将变换应用于MNIST数据集。
我已经读到t-SNE仅用于高维数据的可视化(例如在此答案中),但是鉴于其产生的簇不同,为什么不将其用作降维技术,然后将其用于分类模型或一个独立的群集方法?