潜在语义分析(LSA),潜在语义索引(LSI)和奇异值分解(SVD)之间有什么区别?


Answers:


12

LSA和LSI通常是同义词,信息检索社区通常将其称为LSI。LSA / LSI使用SVD将术语文档矩阵A分解为以下形式的术语概念矩阵U,奇异值矩阵S和概念文档矩阵V:A = USV'。维基百科页面上有对潜在语义索引的详细描述。


8

值得注意的是,虽然LSA和LSI使用SVD发挥作用,但在计算和概念上更简单的方法称为HAL(超空间语言模拟),它可以通过文本跟踪先前和之后的上下文进行筛选。从这些(通常是加权的)共现矩阵中提取向量,并选择特定的词来索引语义空间。在许多方面,我不需要SVD在数学/概念上复杂的步骤就可以理解它的性能和LSA一样好。有关详细信息,请参见Lund&Burgess,1996。


4
...概括了Finch和Chater(1992,1994),Schütze(1993)等人的先前工作。HAL,LSA和其他现有技术通过计算单词的上下文相似度来生成单词的相似度来进行工作。(这是谢泼德的“第二阶”相似性:“第一阶”相似性是单词a出现在单词b附近时;“第二阶”相似性是单词a出现在与单词b相同的单词附近)。
conjugateprior 2010年

3
比较和对比:对于LSA,上下文是完整的文档。对于HAL和其他语言,它是围绕目标单词的文本窗口。LSA测量通过SVD / PCA提取的线性子空间中的距离,另一个则处理周围单词计数的原始空间中的距离。
conjugateprior 2010年

6

NMF和SVD都是矩阵分解算法。 维基百科上有一些有关NMF的相关信息

SVD和PCA密切相关。首先,PCA只是相关性的本征分解。SVD是特征分解到非平方矩阵的概括。奇异值是矩阵特征值乘以矩阵转置后的平方根(使其成为平方并适合特征分解)。此外,如果矩阵是正常的(一种一种=一种一种),奇异值只是特征值的绝对值。无论如何,奇异值都是非负的,失去特征值的符号就是您能够使用非平方矩阵的代价。

其他响应者涵盖了LSI / LSA ...


应该是协方差矩阵吧?不是相关矩阵。
拉斐尔

是的,除非您首先将变量居中。
Emre

变量归一化后,它成为相关矩阵?
拉斐尔

规范化以缩放为中心,因此有所不同。
Emre
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.