Questions tagged «lsa»

3
LSA与PCA(文档集群)
我正在研究文档聚类中使用的各种技术,并且想清除一些有关PCA(主要成分分析)和LSA(潜在语义分析)的疑问。 第一件事-它们之间有什么区别?我知道在PCA中,SVD分解应用于术语协方差矩阵,而在LSA中,它是术语文档矩阵。还有别的事吗? 第二-它们在文档聚类过程中的作用是什么?根据到目前为止的读物,我推断出它们的目的是减少维数,减少噪声并将项之间的关系纳入表示。在执行PCA或LSA之后,将传统算法(如k均值或凝聚法)应用于缩减后的词项空间,并使用典型的相似性度量(如余弦距离)。如果我错了,请纠正我。 第三-是否在应用PCA / LSA之前对TF / IDF术语向量进行了标准化是否重要?并且在那之后是否应该将它们再次标准化? 第四-假设我对LSA / PCA减少的术语空间进行了一些聚类。现在,我应该如何为结果集群分配标签?由于尺寸与实际单词不符,因此这是一个难题。我想到的唯一想法是使用原始项向量计算每个聚类的质心,并选择权重最大的项,但这听起来并不十分有效。有针对此问题的一些特定解决方案吗?我什么都找不到。 我将非常感谢您澄清这些问题。


3
余弦相似度与欧几里得距离(LSA)的K均值
我正在使用潜在语义分析来表示较低维空间中的文档语料库。我想使用k均值将这些文档分为两组。 几年前,我使用Python的gensim并编写了自己的k-means算法来做到这一点。我使用欧几里得距离确定了聚类质心,但随后基于与质心的余弦相似度对每个文档聚类了。它似乎工作得很好。 现在,我正在尝试在更大的文档集上执行此操作。K-means没有收敛,我想知道这是否是我的代码中的错误。我最近读到您不应该使用余弦相似度进行聚类,因为k均值仅适用于欧几里得距离。即使正如我提到的那样,它在较小的测试用例中似乎也可以正常工作。 现在,我在LSA维基百科页面上发现了这一点: 可以使用传统的聚类算法(如k均值)和相似度(如余弦)对文档和术语向量表示进行聚类。 那是什么呢?是否可以使用余弦相似度?

1
LSA与pLSA之间的并列
在pLSA的原始论文中,作者Thomas Hoffman在pLSA和LSA数据结构之间画了一条相似的线,我想与您讨论一下。 背景: 从信息检索中获得启发,假设我们有一个 ññN 单据 D = {d1个,d2,。。。。,dñ}d={d1个,d2,。。。。,dñ}D = \lbrace d_1, d_2, ...., d_N \rbrace 和一个词汇 中号中号M 条款 Ω = {ω1个,ω2,。。。,ω中号}Ω={ω1个,ω2,。。。,ω中号}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace 一个语料库 XXX 可以用 ñ× Mñ×中号N \times M 共生矩阵。 在SVD的潜在语义Analisys中,矩阵XXX 被分为三个矩阵: X= UΣVŤX=üΣVŤX = U \Sigma V^T 哪里 Σ = d我一个克{σ1个,。。。,σs}Σ=d一世一个G{σ1个,。。。,σs}\Sigma = …

1
何时选择PCA与LSA / LSI
题: 是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间? PCA与LSA / LSI的简要概述: 从主要成分分析(PCA)和潜在语义分析(LSA)或潜在语义索引(LSI)的角度来看,它们都基本都依赖于奇异值分解(SVD)在矩阵上的应用。 据我所知,LSA和LSI是同一件事。LSA与PCA的根本区别不在于PCA,而在于在应用SVD之前对矩阵条目进行预处理的方式。 在LSA中,预处理步骤通常涉及规范化计数矩阵,其中列对应于“文档”,行对应于某种单词。可以将条目视为某种(规范化的)文档出现字数。 在PCA中,预处理步骤涉及从原始矩阵计算协方差矩阵。从概念上讲,原始矩阵在本质上比LSA更具“一般性”。在涉及PCA的情况下,通常称列指的是通用样本向量,而称行指的是要测量的单个变量。协方差矩阵的定义是平方和对称的,实际上,由于可以通过对角化分解协方差矩阵,因此不必应用SVD。值得注意的是,PCA矩阵几乎肯定比LSA / LSI变体更密集-零条目仅在变量之间的协方差为零(即变量独立)的情况下才会出现。 最后,另一个经常被用来区分两者的描述点是: LSA寻求Frobenius范数中的最佳线性子空间,而PCA则寻求最佳仿射线性子空间。 无论如何,这些技术的差异和相似性已在整个互联网的各个论坛中激烈辩论,并且显然存在一些显着差异,并且显然这两种技术将产生不同的结果。 因此,我重复我的问题:是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间?如果我有类似术语文档矩阵的内容,那么LSA / LSI始终是最佳选择吗?在某些情况下,可能希望通过为LSA / LSI准备术语/文档矩阵,然后将PCA应用于结果,而不是直接应用SVD来获得更好的结果?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.