可视化高维数据的目的？

23

有很多可视化高维数据集的技术，例如T-SNE，isomap，PCA，监督PCA等。我们经历了将数据投影到2D或3D空间的动作，因此我们拥有“漂亮的图片”。这里介绍了其中一些嵌入（流形学习）方法。

但这“漂亮的图画”实际上有意义吗？通过可视化此嵌入式空间，某人可以获取哪些可能的见解？

我问，因为投射到这个嵌入式空间通常是没有意义的。例如，如果将数据投影到由PCA生成的主要成分，则这些主要成分（特征向量）不对应于数据集中的要素。他们是他们自己的特征空间。

同样，t-SNE将您的数据向下投影到一个空间，如果这些空间可以最大程度地减少KL差异，则它们彼此靠近。这不再是原始功能空间。（如果我做错了，请纠正我，但我什至不认为ML社区使用t-SNE来帮助分类的工作量很大；但这与数据可视化是一个不同的问题。）

我只是非常困惑，为什么人们对其中的一些可视化做出如此大的贡献。

machine-learning dimensionality-reduction visualization

— hlin117
source

这不仅涉及“漂亮图片”，而且可视化高维数据的目的与可视化常规2/3维数据相似。例如相关性，边界和离群值。

— eliasah 2015年

@eliasah：我明白。但是，您将数据投影到的空间不再是原始空间，这可能会使高维中的某些形状变形。假设您有4个维度的Blob。一旦将其投影到2D或3D，您的结构就会被破坏。

— hlin117

就像插图中那样，如果数据位于低维流形中，则不是这样。确定该流形是流形学习的目标。

— Emre'1

9

我以自然语言处理为例，因为这是我比较有经验的领域，因此我鼓励其他人分享他们在其他领域的见解，例如计算机视觉，生物统计学，时间序列等。我敢肯定，在这些领域中类似的例子。

我同意有时模型可视化可能毫无意义，但我认为这种可视化的主要目的是帮助我们检查模型是否确实与人类直觉或其他（非计算）模型有关。此外，可以对数据执行探索性数据分析。

假设我们有一个使用Gensim从Wikipedia语料库构建的单词嵌入模型

model = gensim.models.Word2Vec(sentences, min_count=2)

然后，对于该语料库中表示的每个单词，我们将有一个100维矢量，该单词至少出现两次。因此，如果我们想形象化这些单词，则必须使用t-sne算法将它们缩小为2或3维。这是非常有趣的特征出现的地方。

举个例子：

vector（“ king”）+ vector（“ man”）-vector（“ woman”）= vector（“ queen”）

在这里，每个方向都编码某些语义特征。同样可以在3D中完成

_{（来源：tensorflow.org）}

在此示例中，查看过去时如何分别位于其分词的某个位置。性别相同。与国家和首都相同。

在词嵌入世界中，较旧且较幼稚的模型没有此属性。

有关更多详细信息，请参见斯坦福大学的讲座。简单的单词矢量表示形式：word2vec，GloVe

它们仅限于将相似的单词聚在一起而不考虑语义（性别或动词时态未编码为方向）。毫不奇怪，将语义编码作为较低维度的方向的模型更准确。更重要的是，可以使用它们以更适当的方式探索每个数据点。

在这种特殊情况下，我不认为t-SNE本身就可以用来帮助分类，它更像是对模型的健全性检查，有时还可以找到正在使用的特定语料库的见解。至于向量不再在原始特征空间中的问题。理查德·索歇尔（Richard Socher）在演讲中（上面的链接）解释说，低维向量以其自己的较大表示形式共享统计分布以及其他统计属性，这些特征使可视化分析低维嵌入向量成为可能。

其他资源和图片来源：

— 蜡像
source

11

首先，您对方法的解释是正确的。关键在于，嵌入算法不仅要可视化，而且要从根本上减少三维度，以应对统计数据分析中的两个主要问题，即三维度诅咒和小样本尺寸问题，因此它们不应该描述物理上可以理解的特征，并且不仅有意义而且对于数据分析也是必要的！

实际上，可视化几乎是嵌入方法的最后一种用法。将高维数据投影到较低维度的空间有助于保留实际的成对距离（主要是欧几里得距离），该距离在高维中会失真，或者捕获嵌入在不同特征差异中的最多信息。

— 卡斯拉·曼莎（Kasra Manshaei）
source

10

理查德·汉明（Richard Hamming）的句子是：“计算的目的是洞察力，而不是数字。” 在1973年的这篇学术论文中（请参见“ 什么是看起来完全不同但具有类似汇总统计数据的著名数据集？”中的讨论？），弗朗西斯·安斯科姆（Francis Anscombe）认为“图形对于良好的统计分析至关重要。” Anscombe的四重奏很久以来一直是最受欢迎的：关于噪声，异常值和相关性，相同的统计数据和回归，低维度，但行为却截然不同。将11个维度的数据投影到下面所示的两个维度上会产生很大的误导性：一个具有相关性和分散性，第二个（自下而下）具有完全匹配的内容，除了一个异常值。第三个具有明确的关系，但不是线性的。第四个显示变量，除了阈值外，可能不相关。

在布鲁斯·布朗等人的《生物行为与社会科学多元分析》一书中。，我们可以找：

拉图尔（Latour）在1990年的著作“一起画画”中声称，刻苦的科学家的心态是对绘画的强烈“迷恋”之一。

无论是限于3D空间，最多六维图（空间，颜色，形状和时间），还是想像到第十维图，人类的视野都有限。可观察现象之间的关系：不是。

此外，维度的诅咒甚至与低维度的悖论都混杂在一起，从而产生了一些：

即使所有规范在有限维上都是等效的，变量之间的关系也可能会产生误导。这是保持从一个空间到另一个空间的距离的一个原因。这些概念是信号的低维嵌入的核心（例如压缩感测和关于从高维到低维欧几里德空间的点的低失真嵌入的Johnson-Lindenstauss引理）或特征（用于分类的散射变换）。

因此，可视化是获得数据见解的另一个帮助，它与包括缩小维数在内的计算紧密结合。

$n$ $n$

在两个维度上，中间的蓝色球很小。在3D中也是如此。但是很快，中心球开始生长，其半径超过了立方体的半径。例如，这种洞察力至关重要。

— 劳伦·杜瓦尔（Laurent Duval）
source

4

根据声明和讨论，我认为有一个重要的区别点。转换到较低维度的空间可能会减少信息，这与使信息变得毫无意义有所不同。让我使用以下类比：

观察（2D）我们世界（3D）的图片是一种常见的做法。可视化方法仅提供不同的“眼镜”以查看高维空间。

“信任”可视化方法的一件好事是了解内部结构。我最喜欢的示例是MDS 。您可以使用一些优化工具（例如R optim）自行实现此方法。因此，您可以看到方法的字样，可以测量结果的误差等。

最后，您将获得一张图片，以某种程度的精度保留原始数据的相似性。不多，但不少于。

— Marmite轰炸机
source

4

有时，可视化高维数据很有意义，因为它可以告诉我们物理学。

在天体物理学中至少有一个例子，您将数据投影到由PCA生成的主要成分，而这些主要成分对应于许多关于星系的物理见解。有关详细信息，请参见http://www.astroml.org/sklearn_tutorial/Dimensionity_reduction.html#id2中的最后一个数字

和纸在

http://iopscience.iop.org/article/10.1086/425626/pdf

这是基本思想。作者将PCA应用于望远镜的许多光谱（例如10,000）。每个光谱都有〜1000个属性。由于此数据集具有较大的维度，因此很难对其进行可视化。但是，PCA的前4个成分揭示了很多有关光谱的物理原理（请参见上文纸张中的4.1-4.4节）。

— 于谦
source

4

与此处的其他好答案相比，采取的方法略有不同，“漂亮图片”值一千字。最终，您需要将您的发现传达给不具备统计学知识的人，或者根本没有时间，兴趣或其他事情来掌握全部情况的人。这并不意味着我们不能帮助人们理解，至少是一个一般的概念或现实的一部分。这就是像Freakonomics之类的书-几乎没有数学，没有数据集，但发现仍然存在。

从艺术方面，看看俄罗斯静修处的内元帅。尽管如此，对拿破仑战争的大规模过分简化仍传达了重要的意义，甚至使对战争一无所知的人们也能理解渗透到俄罗斯入侵中的残酷，气候，景观，死亡和礼节。

归根结底，图表只是交流，无论好坏，人与人之间的交流通常集中于合并，简化和简洁。

— 戴夫
source

3

很好的问题。James J. Thomas和Kristin A. Cook在“照亮道路，可视化分析研究与发展议程”的第4章中讨论了数据表示和数据转换。在我的研究中，我已经在PCA和因素分析的背景下解决了这个问题。我的简短回答是，如果将数据转换为从可视化空间移动到原始数据空间，则可视化很有用。另外，这将在视觉分析框架内进行。

— 哈里兹·纳姆（Hariz Naam）
source

从投影空间到原始空间的映射很有意义。但是，还有其他用例吗？

— hlin117

我还看了“照亮道路，视觉分析的研究与发展议程”的第4章。它没有提及可见子空间上的高维可视化。

— hlin117