可视化绘制多维集群数据


17

我有一个包含16个变量的数据集,并按kmeans聚类后,我希望将这两组图绘制出来。

您建议用哪些图表直观地表示两个群集?

Answers:


23

没有单一的可视化效果。这取决于您要查看或强调群集的哪个方面。

是否想看看每个变量如何起作用?考虑平行坐标图。

两个聚类和聚类均值的平行坐标

您是否想查看群集如何沿主要组件分布?考虑一个双图(2D或3D):

聚类双图

您是否要寻找所有维度上的聚类离群值。考虑一个距离群集1的中心距离相对于距离群集2的中心距离的散点图。(通过定义K表示每个群集将落在对角线的一侧。)

在此处输入图片说明

您是否想查看与聚类相比的成对关系。考虑由群集着色的散点图矩阵。

在此处输入图片说明

您是否要查看群集距离的摘要视图?考虑对任何分布可视化进行比较,例如直方图,小提琴图或箱形图。

在此处输入图片说明


2

多变量显示非常棘手,尤其是在有这么多变量的情况下。我有两个建议。

如果某些变量对于聚类特别重要或实质性有趣,则可以使用散点图矩阵并显示您感兴趣的变量之间的双变量关系。您甚至可以使用增强的散点图(例如,使用尺寸与第三个变量成比例的形状)添加更多的尺寸

或者,您可以使用为显示高聚类数据而开发的springplot。注意,我从未在我熟悉的文献中看到过这种情况,但是我认为这是显示多元数据的一种非常有趣的方式。以下引用是该图最初提出的地方。

Hoffman,PE等。(1997)DNA视觉和分析数据挖掘。在IEEE可视化论文集中。亚利桑那州凤凰城,第437-441页。

这里是我最初发现它提。

现在,公平的警告,我无法在Orange之外找到springplots的实现。再说一次,我没有那么努力搜索!

我假设您的数据是真实值且是连续的,如果它是离散的或非间隔的,等等,依此类推,我认为这两个图都不会有帮助。



1

您可以使用R中的factoextra pacakge中的fviz_cluster函数。它将显示数据的散点图,并且点的不同颜色将成为群集。

据我所知,此功能执行PCA,然后选择顶部的两台pc并将其绘制在2D上。

我的答复中的任何建议/改进都是最欢迎的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.