这在我心中至少存在了几个小时。我试图为k-means算法(具有余弦相似性度量)的输出找到最佳k,因此最终将失真作为簇数的函数进行了绘制。我的数据集是在600维空间中的800个文档的集合。
据我了解,在此曲线上找到拐点或肘点应该至少告诉我大约需要将数据放入的簇数。我把图放在下面。通过使用最大二阶导数测试获得绘制红色垂直线的点。完成所有这些操作之后,我陷入了一个简单得多的难题:这张图告诉我有关数据集的什么信息?
它是否告诉我不值得进行聚类并且我的文档缺乏结构,或者我需要设置一个很高的k?尽管有一个奇怪的事情,就是即使k很小,我也看到类似的文档被聚集在一起,所以我不确定为什么要得到这种曲线。有什么想法吗?
terms x document
执行奇异向量后获得的分解。如果我弄错了,请纠正我。