是否已复制使用段落向量进行情感分析的最新技术成果?


20

Le和Mikolov 在ICML 2014论文“ 句子和文档的分布式表示 ”中给我留下了深刻的印象。他们描述的技术称为“段落向量”,它基于word2vec模型的扩展来学习任意长的段落/文档的无监督表示。该论文报告了使用这种技术进行情感分析的最新性能。

我希望在其他文本分类问题上评估此技术,以替代传统的词袋表示法。但是,我在word2vec Google小组的一个线程中遇到了第二个作者的帖子,这让我停顿了一下:

在夏季,我尝试重现Quoc的结果。我可以使IMDB数据集的错误率达到9.4%-10%左右(取决于文本规范化的程度)。但是,我无法达到Quoc报告的结果(错误7.4%,那是一个很大的差异)。当然,我们还向Quoc询问了代码;他答应出版,但到目前为止没有任何反应。...我开始认为Quoc的结果实际上是不可复制的。

有人成功复制了这些结果吗?


这种情况改变了吗?我知道Gensim已经实现了doc2vec(段落/文档向量)版本,请参见:radimrehurek.com/gensim/models/doc2vec.html,但没有尝试在此处引用的论文中再现结果。
Doctorambient 2015年

1
是的,有人尝试使用gensim重现论文结果:请参阅doc2vec IPython笔记本
Radim

Answers:


13

http://arxiv.org/abs/1412.5335上的脚注(作者之一是Tomas Mikolov)说

在我们的实验中,为了匹配(Le&Mikolov,2014)的结果,我们遵循Quoc Le的建议,使用分层softmax代替负采样。但是,只有在不对训练和测试数据进行混洗的情况下,才能产生92.6%的准确性结果。因此,我们认为该结果无效。


1
我不明白为什么“不洗牌” ==>无效。训练/测试集之间是否没有明确的划分?因此,什么是训练/测试取决于您如何对(原始)数据集进行混洗?测试集的顺序无关紧要(没有动态评估,对吗?)。而且,训练集的顺序也无关紧要……
capybaralet

@ user2429920如果他们有分歧,那么顺序显然很重要。
JAB
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.