我正在研究文档聚类中使用的各种技术,并且想清除一些有关PCA(主要成分分析)和LSA(潜在语义分析)的疑问。
第一件事-它们之间有什么区别?我知道在PCA中,SVD分解应用于术语协方差矩阵,而在LSA中,它是术语文档矩阵。还有别的事吗?
第二-它们在文档聚类过程中的作用是什么?根据到目前为止的读物,我推断出它们的目的是减少维数,减少噪声并将项之间的关系纳入表示。在执行PCA或LSA之后,将传统算法(如k均值或凝聚法)应用于缩减后的词项空间,并使用典型的相似性度量(如余弦距离)。如果我错了,请纠正我。
第三-是否在应用PCA / LSA之前对TF / IDF术语向量进行了标准化是否重要?并且在那之后是否应该将它们再次标准化?
第四-假设我对LSA / PCA减少的术语空间进行了一些聚类。现在,我应该如何为结果集群分配标签?由于尺寸与实际单词不符,因此这是一个难题。我想到的唯一想法是使用原始项向量计算每个聚类的质心,并选择权重最大的项,但这听起来并不十分有效。有针对此问题的一些特定解决方案吗?我什么都找不到。
我将非常感谢您澄清这些问题。