有很多可视化高维数据集的技术,例如T-SNE,isomap,PCA,监督PCA等。我们经历了将数据投影到2D或3D空间的动作,因此我们拥有“漂亮的图片”。这里介绍了其中一些嵌入(流形学习)方法。
但这“漂亮的图画”实际上有意义吗?通过可视化此嵌入式空间,某人可以获取哪些可能的见解?
我问,因为投射到这个嵌入式空间通常是没有意义的。例如,如果将数据投影到由PCA生成的主要成分,则这些主要成分(特征向量)不对应于数据集中的要素。他们是他们自己的特征空间。
同样,t-SNE将您的数据向下投影到一个空间,如果这些空间可以最大程度地减少KL差异,则它们彼此靠近。这不再是原始功能空间。(如果我做错了,请纠正我,但我什至不认为ML社区使用t-SNE来帮助分类的工作量很大;但这与数据可视化是一个不同的问题。)
我只是非常困惑,为什么人们对其中的一些可视化做出如此大的贡献。