LSA与PCA（文档集群）

25

我正在研究文档聚类中使用的各种技术，并且想清除一些有关PCA（主要成分分析）和LSA（潜在语义分析）的疑问。

第一件事-它们之间有什么区别？我知道在PCA中，SVD分解应用于术语协方差矩阵，而在LSA中，它是术语文档矩阵。还有别的事吗？

第二-它们在文档聚类过程中的作用是什么？根据到目前为止的读物，我推断出它们的目的是减少维数，减少噪声并将项之间的关系纳入表示。在执行PCA或LSA之后，将传统算法（如k均值或凝聚法）应用于缩减后的词项空间，并使用典型的相似性度量（如余弦距离）。如果我错了，请纠正我。

第三-是否在应用PCA / LSA之前对TF / IDF术语向量进行了标准化是否重要？并且在那之后是否应该将它们再次标准化？

第四-假设我对LSA / PCA减少的术语空间进行了一些聚类。现在，我应该如何为结果集群分配标签？由于尺寸与实际单词不符，因此这是一个难题。我想到的唯一想法是使用原始项向量计算每个聚类的质心，并选择权重最大的项，但这听起来并不十分有效。有针对此问题的一些特定解决方案吗？我什么都找不到。

我将非常感谢您澄清这些问题。

clustering pca data-mining svd lsa

— 用户名
source

LSA还是LSI：相同还是不同？如果您的意思是LSI =潜在语义索引，请更正和标准化。

— Nick Cox

3

LSI和LSA是两回事吗？我以为它们是等效的。

— user1315305

1

我不知道; 关键是（请）对一个事物使用一个术语，而不对两个事物使用；否则，您的问题将更加难以理解。

— Nick Cox

好吧，我更正了。感谢您指出：)

— 2013年

3

维基百科给人的印象是LSA = LSI。但是LSI是对应分析（CA）。与PCA一样，CA是一个统计分析术语，而LSI / LSA是文本挖掘术语。因此，搜索比较PCA和CA的文章。

— ttnphns

8

PCA和LSA都是使用SVD的分析。PCA是一类通用的分析方法，原则上可以以多种方式应用于枚举文本语料库。相反，LSA是一种非常明确指定的分析和还原文本的方法。两者都利用了可以从上下文中提取含义的想法。在LSA中，上下文是通过术语文档矩阵以数字形式提供的。在PCA中，通过提供术语协方差矩阵（数字的生成细节可能会告诉您有关PCA与LSA之间关系的更多信息），以数字形式提供了您建议的上下文。您可能需要在这里查看更多详细信息。
您在这里基本上已经步入正轨。使用它们的确切原因将取决于上下文和玩数据的人的目的。
答案可能取决于您所使用过程的实现。
仔细地和伟大的艺术。大多数人认为这些语义模型的维度是无法解释的。请注意，您几乎可以肯定会预期存在多个基本尺寸。当因子分析中存在多个维度时，我们旋转因子解以产生可解释的因子。但是，由于某些原因，这些模型通常不这样做。您的方法听起来像是一种开始您的艺术的原则方式……尽管我不足以确定维度之间的缩放比例足以信任集群分析解决方案。如果您想发挥意义，还可以考虑一种更简单的方法，其中向量与特定单词（例如HAL）具有直接关系。

— 拉塞尔皮尔斯
source

6

LSI是根据术语文档矩阵计算的，而PCA是根据协方差矩阵计算的，这意味着LSI试图找到描述数据集的最佳线性子空间，而PCA试图寻找最佳的并行线性子空间。

— 高拉夫·辛格（Gaurav Singh）
source

4

尼克，您能否提供更多有关最佳线性子空间和最佳并行线性子空间之间差异的详细信息？这与正交性有关吗？我应该问一个新问题吗？

— russellpierce 2014年

1

在什么意义上最好？最小化Frobinius范式的重构误差？在这种情况下，对我来说听起来肯定像PCA。

— 安德鲁M

2

只是拉塞尔皮尔斯的答案的延伸。

1）本质上，LSA是应用于文本数据的PCA。当将SVD用于PCA时，它不会应用于协方差矩阵，而会直接应用于特征样本矩阵，这只是LSA中的术语文档矩阵。不同之处在于PCA通常需要对数据进行功能方面的规范化，而LSA则不需要。

有一个由安德鲁·伍好的演讲，说明PCA和LSA之间的连接。

2/3）由于文档数据的长度各不相同，因此通常可以对幅度进行标准化。在此，应使用按样本进行归一化，而不应按特征进行归一化。在实践中，我发现对LSI之前和之后进行标准化都很有帮助。

如果聚类算法度量标准不取决于幅度（例如余弦距离），则可以省略最后的标准化步骤。

4）认为从群集中获取有意义的标签通常是一个难题。有些人提取的术语/短语可以最大程度地提高语料库和聚类之间的分布差异。另一种方法是使用带有预定义标签的半监督群集。

— Dontloo
source