1
可以在T-SNE可视化中将更近的点视为更相似吗?
我从欣顿的论文中了解到,T-SNE在保持本地相似性方面做得很好,在维护全球结构(集群化)方面做得很好。 但是我不清楚在2D t-sne可视化中出现的点是否可以假定为“更相似”的数据点。我正在使用具有25个功能的数据。 例如,观察下面的图像,我是否可以假定蓝色数据点与绿色数据点更相似,特别是最大的绿色点群集?或者,以不同的方式询问,是否可以假设蓝点与最近的群集中的绿色点比其他群集中的红色点更类似于绿色点?(忽略带红色簇中的绿色点) 当观察其他示例时,例如在sci-kit上学习的示例流形学习中,可以假定这一点是正确的,但是我不确定统计学上是否正确。 编辑 我已经手动计算了与原始数据集的距离(平均成对欧几里得距离),而可视化实际上代表了关于数据集的比例空间距离。但是,我想知道从t-sne的原始数学公式中得出的结果是否完全可以接受,而不仅仅是巧合。