t-SNE何时会引起误解?


37

引用其中一位作者的话:

t分布随机邻居嵌入(t-SNE)是一项降维技术(获奖),特别适合于高维数据集的可视化。

听起来不错,但这是作者的话题。

作者的另一句话(关于上述比赛):

您从这场比赛中收获了什么?
在开始对数据进行预测之前,请始终先对数据进行可视化处理!通常,可视化(例如我制作的可视化)可以洞悉数据分布,从而可以帮助您确定尝试哪种类型的预测模型。

信息必须1 被丢失-这是一个降维技术毕竟。但是,由于这是可视化时使用的一种很好的技术,因此丢失的信息的价值不及突出显示的信息(通过缩小为2或3维,使其可见/可理解)。

所以我的问题是:

  • tSNE什么时候是适合该工作的工具?
  • 什么样的数据集导致它不起作用,
  • 它看起来可以回答什么样的问题,但实际上却不能回答?
  • 在上面的第二个引用中,建议始终可视化您的数据集,是否应该始终使用tSNE进行可视化?

我希望可以反过来最好地回答这个问题,即回答:什么时候tSNE是适合该工作的工具?


提醒我不要依赖tSNE告诉我将如何轻松地对数据进行分类(分为几类-一个判别模型)令人误解的例子是,对于下面的两个图像,生成模型2更糟第一个/左边的可视化数据的准确性为53.6%,第二个/右边的可视化数据的准确性为67.2%。

第一 第二


1 我对此可能是错的,我可能会坐下来,稍后再尝试一个证明/计数器示例

2 请注意,生成模型与判别模型并不相同,但这是我给出的示例。


1
AB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R

@卢卡斯:当然可以。(我怎么没意识到)
Lyndon White

您正在尝试哪种生成模型?
Lin WeiChing Lin 2015年

@ Wei-ChingLin我不确定正在使用哪种生成模型。可能是某种深度信仰网络,深度玻尔兹曼机器或自动编码器。与问题的实质并不相关
Lyndon White

Answers:


13

T-Sne是一种还原技术,可保持空间的小比例结构(即特别接近的空间),这使其非常适合可视化数据可分离性。这意味着T-Sne对于旨在了解数据可分离性程度的早期可视化特别有用。其他技术(例如PCA)随着维数的消失而使数据以低维的表示形式投影在彼此的顶部,这使得很难就高维空间中的可分离性做出任何清晰的陈述。

因此,举例来说,如果您得到一个T-Sne图,其中包含大量重叠的数据,那么无论您做什么,分类器都将表现不好的几率很高。相反,如果您在T-Sne图中看到明显分开的数据,则基础的高维数据包含足够的可变性以构建良好的分类器。


3
谢谢,这是对T-SNE的很好解释。但是我没有看到我的实际问题的答案(请参阅开头的点。)
Lyndon White

5
这根本不能回答问题。
变形虫说恢复莫妮卡

10

开箱即用,tSNE具有一些超参数,主要参数是困惑。请记住,启发式定义了tSNE的相似性概念,并且通用困惑性用于所有数据点。您可以尝试生成一个标记的数据集,其中每个集群都具有截然不同的困惑。这可以通过混合各种不同的高斯来完成。我猜想这也会在tSNE的Barnes-Hut实现中引起问题,该实现依赖于对数据的隔离和仅使用最近的邻居。tSNE也有一个初始松弛期,它试图使簇彼此通过。在此期间,没有惩罚或排斥。因此,例如,如果您的数据看起来像一团乱面条(每个面条代表一个给定的簇),则 重新校准初始通道会很困难,我怀疑tSNE是否会正常工作。从某种意义上说,我认为这暗示着如果将数据编织在一起并最初位于低维空间(例如5),则tSNE将无法正常工作。

t

k

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.