我对进行潜在狄利克雷分配(LDA)时如何计算保留样本的困惑度感到困惑。有关该主题的论文轻而易举,使我觉得我缺少明显的东西...
困惑被视为LDA性能的良好衡量标准。这样做的想法是,您保留一个保留样本,在其余数据上训练LDA,然后计算保留的复杂性。
困惑可以由以下公式给出:
这里 是文档的数量(测试样品中,据推测),表示在文件的话,在文档的单词数。
我不清楚如何合理地计算,因为我们没有所保留文档的主题组合。理想情况下,我们将对所有可能的主题混合在Dirichlet之前进行积分,并使用我们学到的主题多项式。但是,计算此积分似乎并不容易。
或者,我们可以尝试为每个坚持的文档(考虑到我们所学的主题)学习最佳的主题组合,并以此来计算困惑度。这是可行的,但是它并不像Horter等人和Blei等人的论文所暗示的那么琐碎,而且我还不清楚我的结果是否等同于上述理想情况。