LSA与pLSA之间的并列


9

pLSA的原始论文中,作者Thomas Hoffman在pLSA和LSA数据结构之间画了一条相似的线,我想与您讨论一下。

背景:

从信息检索中获得启发,假设我们有一个 ñ 单据

d={d1个d2dñ}
和一个词汇 中号 条款
Ω={ω1个ω2ω中号}

一个语料库 X 可以用 ñ×中号 共生矩阵。

SVD潜在语义Analisys中,矩阵X 被分为三个矩阵:

X=üΣVŤ
哪里 Σ=d一世一个G{σ1个σs}σ一世 是...的奇异值 Xs 是的等级 X

LSA的近似值 X

X^=ü^Σ^VŤ^
然后计算将三个矩阵截断到某个水平 ķ<s,如图所示:

在此处输入图片说明

在pLSA中,选择了一组固定的主题(潜在变量) ž={ž1个ž2žž} 的近似 X 计算为:

X=[Pd一世|žķ]×[d一世一个GPžķ]×[PFĴ|žķ]Ť
其中三个矩阵是使模型的可能性最大化的矩阵。

实际问题:

作者指出,这些关系存在:

  • ü=[Pd一世|žķ]
  • Σ^=[d一世一个GPžķ]
  • V=[PFĴ|žķ]

LSA和pLSA之间的关键区别是用于确定最佳分解/逼近的目标函数。

我不确定他是对的,因为我认为这两个矩阵 X^ 代表不同的概念:在LSA中,它是术语在文档中出现的时间的近似值;在pLSA中,是术语在文档中出现的(估计)概率。

您能帮我澄清一下吗?

此外,假设给定新文档,我们已经在语料库上计算了两个模型 d,在LSA中,我将其近似值计算为:

d^=d×V×VŤ
  1. 这一直有效吗?
  2. 为什么在pLSA上应用相同的程序没有得到有意义的结果?
    d^=d×[PFĴ|žķ]×[PFĴ|žķ]Ť

谢谢。

Answers:


12

为简单起见,我在这里给出LSA与非负矩阵分解(NMF)之间的联系,然后说明对成本函数的简单修改如何导致pLSA。如前所述,LSA和pLSA都是分解方法,在某种意义上,直到对行和列进行规范化之前,文档术语矩阵的低秩分解:

X=üΣd

使用以前的符号。更简单地说,文档术语矩阵可以写为两个矩阵的乘积:

X=一个Ť

哪里 一个ñ×s中号×s。对于LSA,通过设置获得与上一个公式的对应关系 一个=üΣ=VΣ

理解LSA和NMF之间区别的一种简单方法是使用它们的几何解释:

  • LSA是以下解决方案:

    一个X-一个ŤF2
  • NMF-大号2 是以下解决方案:

    一个00X-一个ŤF2
  • NMF-KL等同于pLSA,是以下解决方案:

    一个00ķ大号X||一个Ť

哪里 ķ大号X||ÿ=一世ĴX一世Ĵ日志X一世Ĵÿ一世Ĵ是矩阵之间的Kullback-Leibler散度Xÿ。可以很容易地看出,上述所有问题并没有独特的解决方案,因为一个问题可以成倍增加。一个 用一个正数除 用相同的数字获得相同的目标值。因此,-在LSA的情况下,人们通常选择通过减少特征值排序的正交基础。这是通过SVD分解给出的,并标识了LSA解决方案,但是任何其他选择都是可能的,因为它对大多数操作没有影响(余弦相似度,上述平滑公式等)。-对于NMF,不可能进行正交分解,但是一个 通常被限制为一个,因为它具有直接的概率解释为 pžķ|d一世。如果另外,X 被归一化(即总和为一),则 必须加一,导致概率解释 pFĴ|žķ。上面问题中给出的pLSA版本略有不同,因为一个 被限制为总和为1,因此 一个pd一世|žķ,但差异只是参数化的变化,问题仍然相同。

现在,为了回答最初的问题,LSA和pLSA(以及其他NMF算法)之间的区别有些微妙:非负约束会引起一个“聚类效应”,这在经典LSA情况下无效,因为奇异值分解解是旋转不变的。非负性约束以某种方式打破了旋转不变性,并赋予了具有某种语义意义的因素(文本分析中的主题)。解释它的第一篇论文是:

Donoho,David L.和Victoria C. Stodden。“何时将非负矩阵分解分解为正确的分解?” 神经信息处理系统的进展:2003年会议的论文集。麻省理工学院出版社,2004年。[链接]

否则,将在此处描述PLSA与NMF之间的关系:

丁,克里斯,陶莉和韦鹏。“关于非负矩阵分解与概率潜在语义索引之间的等价关系。” 计算统计与数据分析52.8(2008):3913-3927。[链接]

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.