2
如何计算潜在的Dirichlet分配的坚持的困惑?
我对进行潜在狄利克雷分配(LDA)时如何计算保留样本的困惑度感到困惑。有关该主题的论文轻而易举,使我觉得我缺少明显的东西... 困惑被视为LDA性能的良好衡量标准。这样做的想法是,您保留一个保留样本,在其余数据上训练LDA,然后计算保留的复杂性。 困惑可以由以下公式给出: per(Dtest)=exp{−∑Md=1logp(wd)∑Md=1Nd}per(Dtest)=exp{−∑d=1Mlogp(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} (摘自Horster等人的大型图像数据库上的图像检索)。 这里 MMM是文档的数量(测试样品中,据推测),wdwd\mathbb{w}_d表示在文件的话ddd,NdNdN_d在文档的单词数ddd。 我不清楚如何合理地计算p(wd)p(wd)p(\mathbb{w}_d),因为我们没有所保留文档的主题组合。理想情况下,我们将对所有可能的主题混合在Dirichlet之前进行积分,并使用我们学到的主题多项式。但是,计算此积分似乎并不容易。 或者,我们可以尝试为每个坚持的文档(考虑到我们所学的主题)学习最佳的主题组合,并以此来计算困惑度。这是可行的,但是它并不像Horter等人和Blei等人的论文所暗示的那么琐碎,而且我还不清楚我的结果是否等同于上述理想情况。