t-SNE何时会引起误解？

引用其中一位作者的话：

t分布随机邻居嵌入（t-SNE）是一项降维技术（获奖），特别适合于高维数据集的可视化。

听起来不错，但这是作者的话题。

作者的另一句话（关于上述比赛）：

您从这场比赛中收获了什么？
在开始对数据进行预测之前，请始终先对数据进行可视化处理！通常，可视化（例如我制作的可视化）可以洞悉数据分布，从而可以帮助您确定尝试哪种类型的预测模型。

信息必须¹ 被丢失-这是一个降维技术毕竟。但是，由于这是可视化时使用的一种很好的技术，因此丢失的信息的价值不及突出显示的信息（通过缩小为2或3维，使其可见/可理解）。

所以我的问题是：

tSNE什么时候是适合该工作的工具？
什么样的数据集导致它不起作用，
它看起来可以回答什么样的问题，但实际上却不能回答？
在上面的第二个引用中，建议始终可视化您的数据集，是否应该始终使用tSNE进行可视化？

我希望可以反过来最好地回答这个问题，即回答：什么时候tSNE是适合该工作的工具？

提醒我不要依赖tSNE告诉我将如何轻松地对数据进行分类（分为几类-一个判别模型）令人误解的例子是，对于下面的两个图像，生成模型²更糟第一个/左边的可视化数据的准确性为53.6％，第二个/右边的可视化数据的准确性为67.2％。

¹ _{我对此可能是错的，我可能会坐下来，稍后再尝试一个证明/计数器示例}

² _{请注意，生成模型与判别模型并不相同，但这是我给出的示例。}

data-visualization dimensionality-reduction tsne

— 林登·怀特
source

A

$A$

B

$B$

| A | = | B |

$|A| = |B|$

| N | = | N^{n} | = ℵ_{0}

$|\mathbb{N}| = |\mathbb{N}^n| = \aleph_0$

| R | = | R | = | R^{n} | = ℵ_{1}

$|\mathbb{R}| = |\mathbb{R}| = |\mathbb{R}^n| = \aleph_1$

R^{2}

$\mathbb{R}^2$

R

$\mathbb{R}$

@卢卡斯：当然可以。（我怎么没意识到）

— Lyndon White

您正在尝试哪种生成模型？

— Lin WeiChing Lin 2015年

@ Wei-ChingLin我不确定正在使用哪种生成模型。可能是某种深度信仰网络，深度玻尔兹曼机器或自动编码器。与问题的实质并不相关

— Lyndon White

相关：distill.pub/2016/misread-tsne

— Lyndon White

Answers:

T-Sne是一种还原技术，可保持空间的小比例结构（即特别接近的空间），这使其非常适合可视化数据可分离性。这意味着T-Sne对于旨在了解数据可分离性程度的早期可视化特别有用。其他技术（例如PCA）随着维数的消失而使数据以低维的表示形式投影在彼此的顶部，这使得很难就高维空间中的可分离性做出任何清晰的陈述。

因此，举例来说，如果您得到一个T-Sne图，其中包含大量重叠的数据，那么无论您做什么，分类器都将表现不好的几率很高。相反，如果您在T-Sne图中看到明显分开的数据，则基础的高维数据包含足够的可变性以构建良好的分类器。

— 约翰·雪特
source

谢谢，这是对T-SNE的很好解释。但是我没有看到我的实际问题的答案（请参阅开头的点。）

— Lyndon White

这根本不能回答问题。

— 变形虫说恢复莫妮卡

开箱即用，tSNE具有一些超参数，主要参数是困惑。请记住，启发式定义了tSNE的相似性概念，并且通用困惑性用于所有数据点。您可以尝试生成一个标记的数据集，其中每个集群都具有截然不同的困惑。这可以通过混合各种不同的高斯来完成。我猜想这也会在tSNE的Barnes-Hut实现中引起问题，该实现依赖于对数据的隔离和仅使用最近的邻居。tSNE也有一个初始松弛期，它试图使簇彼此通过。在此期间，没有惩罚或排斥。因此，例如，如果您的数据看起来像一团乱面条（每个面条代表一个给定的簇），则重新校准初始通道会很困难，我怀疑tSNE是否会正常工作。从某种意义上说，我认为这暗示着如果将数据编织在一起并最初位于低维空间（例如5），则tSNE将无法正常工作。

$t$

$k$

— 亚历克斯·R。
source