6
基于t-SNE的输出进行聚类
我有一个应用程序,在寻找嘈杂的数据集之前,可以方便地将一个嘈杂的数据集聚类。我首先研究了PCA,但是要达到90%的可变性需要大约30个组件,因此仅在几台PC上进行群集将丢弃很多信息。 然后,我尝试了t-SNE(第一次),这给了我一个二维的奇怪形状,非常适合通过k均值聚类。而且,在数据上运行随机森林并以集群分配作为结果表明,就问题原始情况而言,就组成原始数据的变量而言,集群具有相当合理的解释。 但是,如果我要报告这些集群,该如何描述它们?主成分上的K均值聚类揭示了根据组成数据集中方差X%的派生变量彼此相邻的个体。关于t-SNE集群可以做出什么等效的表述? 可能会产生以下效果: t-SNE揭示了潜在的高维流形中的近似连续性,因此在高维空间的低维表示上的聚类最大化了连续个体不会在同一聚类中的“可能性” 有人能提出比这更好的宣传吗?