题:
是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间?
PCA与LSA / LSI的简要概述:
从主要成分分析(PCA)和潜在语义分析(LSA)或潜在语义索引(LSI)的角度来看,它们都基本都依赖于奇异值分解(SVD)在矩阵上的应用。
据我所知,LSA和LSI是同一件事。LSA与PCA的根本区别不在于PCA,而在于在应用SVD之前对矩阵条目进行预处理的方式。
在LSA中,预处理步骤通常涉及规范化计数矩阵,其中列对应于“文档”,行对应于某种单词。可以将条目视为某种(规范化的)文档出现字数。
在PCA中,预处理步骤涉及从原始矩阵计算协方差矩阵。从概念上讲,原始矩阵在本质上比LSA更具“一般性”。在涉及PCA的情况下,通常称列指的是通用样本向量,而称行指的是要测量的单个变量。协方差矩阵的定义是平方和对称的,实际上,由于可以通过对角化分解协方差矩阵,因此不必应用SVD。值得注意的是,PCA矩阵几乎肯定比LSA / LSI变体更密集-零条目仅在变量之间的协方差为零(即变量独立)的情况下才会出现。
最后,另一个经常被用来区分两者的描述点是:
LSA寻求Frobenius范数中的最佳线性子空间,而PCA则寻求最佳仿射线性子空间。
无论如何,这些技术的差异和相似性已在整个互联网的各个论坛中激烈辩论,并且显然存在一些显着差异,并且显然这两种技术将产生不同的结果。
因此,我重复我的问题:是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间?如果我有类似术语文档矩阵的内容,那么LSA / LSI始终是最佳选择吗?在某些情况下,可能希望通过为LSA / LSI准备术语/文档矩阵,然后将PCA应用于结果,而不是直接应用SVD来获得更好的结果?