4
噪声对比估计(NCE)损失的直观解释?
我从以下两个来源了解到NCE(一种候选抽样形式): Tensorflow写 原始纸 有人可以为我提供以下帮助: NCE的工作原理的简单说明(我发现上面的内容很难解析和理解,因此直观的方法可以很好地介绍此处的数学知识) 在上面的第1点之后,自然而然地描述了它与负采样有何不同。我可以看到公式略有变化,但无法理解数学。在以下情况下,我确实对否定采样有一个直观的了解word2vec-我们从词汇表中随机选择一些样本,V并仅对那些样本进行更新,因为它们|V|很大,因此可以加快速度。如果有误,请更正。 何时使用哪一个,如何决定?如果您可以包括示例(可能易于理解的应用程序),那就太好了。 NCE比负采样好吗?哪种方式更好? 谢谢。