为什么不将t-SNE用作聚类或分类的降维技术?


34

在最近的一项作业中,我们被告知在MNIST数字上使用PCA将尺寸从64(8 x 8图像)减小到2。然后,我们不得不使用高斯混合模型对数字进行聚类。仅使用2个主要成分的PCA不会产生不同的聚类,因此该模型无法产生有用的分组。

但是,使用带有2个组件的t-SNE,可以更好地分离群集。当将高斯混合模型应用于t-SNE组件时,会产生更多不同的簇。

在下面的图像对中,可以看到具有2个分量的PCA和具有2个分量的t-SNE的差异,其中将变换应用于MNIST数据集。

MNIST上的PCA

MNIST上的t-SNE

我已经读到t-SNE仅用于高维数据的可视化(例如在此答案中),但是鉴于其产生的簇不同,为什么不将其用作降维技术,然后将其用于分类模型或一个独立的群集方法?


2
您是指分类还是聚类?标题说群集,而帖子说分类。
usεr11852恢复单胞菌说,

对于那个很抱歉。我想知道为什么不将其用作聚类技术或分类的降维技术。我进行了编辑以反映这一点。
威尔克

巧合的是,最近发表的一篇论文使用t-SNE和无监督的聚类算法来标记燃烧过程。
tpg2114 '18 -4-12

2
您链接的答案说明了tSNE可能具有误导性。您会看到图中的群集不存在于数据中。如果没有标签,那是有害的。并且不要从MNIST数据得出太多结论。这是一个表现非常出色的数据集...
Anony-Mousse

1
我发现本文对解释t-SNE及其缺点很有帮助。它具有大量的交互式可视化效果,有助于强调要点。
威尔克

Answers:


33

ŤŤ

ŤŤ

ŤŤ11,我们可能还从分类开始(这使我们回到了自动编码器的使用)。


1
Q似乎问的更多的是关于聚类而不是分类。标题中至少包含聚类。
变形虫说恢复莫妮卡

@amoeba:我也这么认为,并写了关于通过基于非距离的聚类(例如FMM,DBSCAN)进行潜在使用的文章,但随后我读到了一个问题:“ 为什么不将其用作维技术然后用于分类型号?
usεr11852恢复单胞菌说,

是的,但标题Q不同。我认为OP可能会对两者之间的差异感到困惑,因此在A中同时解决这两个问题可能很有意义!
变形虫说恢复莫妮卡

4
OK .. OK ......从驾驶真核生物...:P
usεr11852恢复单胞菌说,

1
(+1)我很想听听您对我刚刚发布的这个集群/ t-SNE答案stats.stackexchange.com/questions/263539的看法。CC也要@caseWestern-您可能也会对此感兴趣。
变形虫说恢复莫妮卡

3

t-SNE不会保留距离,但基本上可以估计概率分布。理论上,t-SNE算法将输入映射到2或3维的映射空间。假设输入空间为高斯分布,映射空间为t分布。所使用的损失函数是两个分布之间的KL散度,使用梯度下降将其最小化。

根据t-SNE的合著者Laurens van der Maaten的说法

t-SNE不会保留距离,而是保留概率,因此在高D和低D下测量欧几里得距离之间的一些误差是没有用的。

参考:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-introduction-to-the-t-sne-algorithm


2

概括地说:给定足够强大的(/合适的)分类器或聚类器,就永远不会进行任何降维。

降维会丢失信息。

由于这种聚类器或分类器(特别是聚类器,少了聚类器)在内部已将某种形式的投影合并到有意义的空间中。降维也投射到(充满希望的)有意义的空间。

但是降维必须以一种不为人知的方式进行-它不知道您要减少什么任务。对于具有完全监督信息的分类,尤其如此。但这也适用于聚类,在聚类中,要为聚类而投影的空间比“仅具有较少的维数”更好地定义(对于此算法)。@ usrr11852的答案谈到了这一点。正如我所说,降维不知道什么您要减少的任务-在选择要使用的降维算法时告知您。

因此,与在聚类/分类之前添加降维步骤作为预处理相比,通常不如使用另一种包含有用投影的分类器/聚类器更好。

减少维数的确有一个好处,这是它在创建(希望)有意义的空间的投影时不受监督的性质。如果标签数据很少,这很有用。但是通常还有其他与分类器紧密相关的方法(例如,用于神经网络,使用自动编码器,例如深度信念网络预训练)会更好地工作,因为它们在设计时就考虑了最终任务。降维不是更一般的任务。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.