何时选择PCA与LSA / LSI


9

题:

是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间?

PCA与LSA / LSI的简要概述:

从主要成分分析(PCA)和潜在语义分析(LSA)或潜在语义索引(LSI)的角度来看,它们都基本都依赖于奇异值分解(SVD)在矩阵上的应用。

据我所知,LSA和LSI是同一件事。LSA与PCA的根本区别不在于PCA,而在于在应用SVD之前对矩阵条目进行预处理的方式。

在LSA中,预处理步骤通常涉及规范化计数矩阵,其中列对应于“文档”,行对应于某种单词。可以将条目视为某种(规范化的)文档出现字数。

在PCA中,预处理步骤涉及从原始矩阵计算协方差矩阵。从概念上讲,原始矩阵在本质上比LSA更具“一般性”。在涉及PCA的情况下,通常称列指的是通用样本向量,而称行指的是要测量的单个变量。协方差矩阵的定义是平方和对称的,实际上,由于可以通过对角化分解协方差矩阵,因此不必应用SVD。值得注意的是,PCA矩阵几乎肯定比LSA / LSI变体更密集-零条目仅在变量之间的协方差为零(即变量独立)的情况下才会出现。

最后,另一个经常被用来区分两者的描述点是:

LSA寻求Frobenius范数中的最佳线性子空间,而PCA则寻求最佳仿射线性子空间。

无论如何,这些技术的差异和相似性已在整个互联网的各个论坛中激烈辩论,并且显然存在一些显着差异,并且显然这两种技术将产生不同的结果。

因此,我重复我的问题:是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间?如果我有类似术语文档矩阵的内容,那么LSA / LSI始终是最佳选择吗?在某些情况下,可能希望通过为LSA / LSI准备术语/文档矩阵,然后将PCA应用于结果,而不是直接应用SVD来获得更好的结果?


1
您对LSA / LSI的描述与我的对应分析(CA)非常相似,并且我怀疑文本挖掘的缩写LSA在统计中代表CA。CA和PCA确实紧密相关。
ttnphns 2012年

嘿只是想知道您是否找到了答案,我也有同样的问题。
Pushpendre

你想做什么?这可能使您对哪种方法更适用有所了解。您是否有兴趣在文档和术语方面寻找文本模式和语义相关性或较低维的潜在空间?
ui_90jax

Answers:


2

一个区别我注意到的是,PCA只能给你任何(取决于你如何相乘的共参照矩阵术语长期或文档,文档相似性或),而SVD / LSA可投放,因为你有特征向量两个和。实际上,我看不出有理由在SVD上使用PCA。AAAAAAAA

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.