可以在T-SNE可视化中将更近的点视为更相似吗?


14

我从欣顿的论文中了解到,T-SNE在保持本地相似性方面做得很好,在维护全球结构(集群化)方面做得很好。

但是我不清楚在2D t-sne可视化中出现的点是否可以假定为“更相似”的数据点。我正在使用具有25个功能的数据。

例如,观察下面的图像,我是否可以假定蓝色数据点与绿色数据点更相似,特别是最大的绿色点群集?或者,以不同的方式询问,是否可以假设蓝点与最近的群集中的绿色点比其他群集中的红色点更类似于绿色点?(忽略带红色簇中的绿色点)

在此处输入图片说明

当观察其他示例时,例如在sci-kit上学习的示例流形学习中,可以假定这一点是正确的,但是我不确定统计学上是否正确。

在此处输入图片说明

编辑

我已经手动计算了与原始数据集的距离(平均成对欧几里得距离),而可视化实际上代表了关于数据集的比例空间距离。但是,我想知道从t-sne的原始数学公式中得出的结果是否完全可以接受,而不仅仅是巧合。


1
蓝点最接近它们各自的相邻绿点,这就是执行嵌入的方式。松散地说,应该保留相似性(或距离)。从25维到仅2维很可能会导致信息丢失,但是2D表示是可以在屏幕上显示的最接近的表示。
弗拉迪斯拉夫(Vladislavs Dovgalecs)'16

Answers:


5

我将t-SNE表示为局部线性嵌入的一种智能概率改编。在这两种情况下,我们都尝试将点从高维空间投影到小空间。通过优化局部距离的守恒(直接使用LLE,预先生成概率分布并使用t-SNE优化KL散度)来完成此投影。然后,如果您的问题是,它是否保持全局距离,答案是否定的。这将取决于数据的“形状”(如果分布是平滑的,则应该以某种方式保留距离)。

t-SNE实际上在瑞士卷上效果不佳(您的“ S” 3D图像),您可以看到,在2D结果中,中间的黄色点通常比蓝色的点更靠近红色的点(它们完全位于3D图像的中心)。

t-SNE的另一个很好的例子是手写数字的聚类。请参阅此链接上的示例:https : //lvdmaaten.github.io/tsne/


2
我的意思是,您不能仅将下部空间中的距离用作相似性标准。t-SNE将保留群集等全局结构,但不必保持距离。这将取决于高维数据的形状和您所使用的困惑度。
罗宾

1
好的我明白了。感谢您的澄清。是的,我同意较低空间中的距离不准确。现在,由于t-sne对于可视化是可行的,我可以在概念上使用较低尺寸图中的距离吗?例如,在我的情节中,考虑到二维空间中三组的明显分隔,我可以肯定地说蓝点比绿点更接近或更接近绿点。还是很难说?
Javierfdr

1
很难说。低维空间中的点使用以原点为中心的高斯分布进行初始化。然后迭代地替换它们,以优化KL散度。因此,我想说的是,在您的情况下,蓝点与绿色群集更相似,但是现在有一种方法可以评估它们比红色群集更近。t-SNE。
罗宾

1
总而言之,t-SNE强调(1)通过大的成对距离对不同的数据点进行建模,以及(2)通过小的成对距离对相似的数据点进行建模。具体来说,t-SNE在低维地图中引入了远距离作用力,可以将两个(类似的点)聚类在一起,这些点在优化过程中会尽早分离。
罗宾

1
非常好的解释。非常感谢您的努力。我认为您的不同评论构成了一个完整的答案。
Javierfdr
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.