我正在使用潜在语义索引来查找文档之间的相似性(谢谢,JMS!)
降维后,我尝试了k均值聚类将文档分组为聚类,效果很好。但是我想进一步介绍一下,并将文档可视化为一组节点,其中任意两个节点之间的距离与它们的相似度成反比(高度相似的节点靠在一起)。
令我惊讶的是,由于我的数据> 2维,因此我无法将相似度矩阵准确地简化为2维图。所以我的第一个问题是:是否有标准方法可以做到这一点?
我可以将数据缩小为二维,然后将它们绘制为X轴和Y轴,这对于一组约100-200个文档就足够了吗?如果这是解决方案,那么从一开始就将我的数据缩减为2维更好,还是有什么方法可以从我的多维数据中选择两个“最佳”维?
我正在使用Python和gensim库,如果有区别的话。
为什么需要减少尺寸?要构建所需的图形,只需要边的长度与文档之间的距离成比例的边。根据用于k均值聚类的指标,您已经拥有了这一点。
—
阿曼2013年
@Aman无法在2D平面(图形)上显示> 2个文档之间的相似性。当然,我可以用基于k均值距离的间距绘制点A和B。但是,当我需要根据到A和B的距离来绘制点C时,通常在2D空间中没有满足所有成对关系的点。
—
杰夫,