word2vec需要多少训练数据？

我想比较不同来源提到的同一单词之间的差异。也就是说，作者在使用诸如“民主”之类的定义不清的单词时有何不同。

一个简短的计划是

以提及“民主”一词的书籍为纯文本
在每本书中，替换democracy为democracy_%AuthorName%
word2vec在这些书上训练模型
计算之间的距离democracy_AuthorA，democracy_AuthorB和“民主”的其他提及重新标记

因此，每个作者的“民主”都有自己的载体，用于比较。

但是，似乎word2vec需要远远超过几本书（每个重新标记的单词仅在一部分书中出现）来训练可靠的向量。在官方网页推荐数据集，包括数十亿字。

我只是想问一问word2vec，如果有的话，一个作者的书集的子集应该有多大？

text-mining word-embeddings

您使用的只是与民主有关的书籍吗？如果不是，那么距离指标是否会因为书籍内容之间的较大差异而被淹没？这是您的问题的副作用，因为它存在于非常高的维度空间中，并且被维度诅咒的手所触及。也许只在感兴趣的单词周围仅保留一小段文本会有所帮助，但这仍然是一个很大的问题。

— image_doctor 2015年

是的，这就是本质。这里带有一个可能是病态的思想隐喻。想象一下以颜色代表书籍的章节。一本书整体上是各章所有颜色的混合体。关于西欧民主的一本书的章节总和最终可能带有整体偏红色调。如果我们用蓝色来表示旅游业，那么一本关于古巴旅游业的书，其中只有一章关于民主及其对经济发展的影响，将具有强烈的蓝色调。因此，从整体上看，这两本书看起来会非常不同。

— image_doctor

这是一种更容易理解的方式来说明数据科学家会说些什么，因为这两本书的向量在特征空间上相距甚远，因此看起来将大相径庭。事先很难量化不使用数据的情况下需要多少示例，但是语言是微妙的和分层的，因此您可能会希望获得尽可能多的示例……甚至更多。最终，直到您尝试了，您才知道。这不是一个具体的答案，但是除非有人直接做类似的事情，否则可能是最好的。

— image_doctor

word2vec已经仅使用“感兴趣的单词周围的一小段文本”。该window参数设置上下文中有多少个单词用于训练您的单词w

— jamesmf 2015年

@politicalscientist我尚未完成此项目。

— 安东·塔拉森科

听起来doc2vec（或段落/上下文向量）可能是适合此问题的合适方法。

简而言之，除了单词向量外，还添加了一个“上下文向量”（在您的情况下为作者的嵌入），用于预测中心词或上下文词。

这意味着您将从所有有关“民主”的数据中受益，而且可以提取该作者的嵌入内容，这将使您能够使用每个作者的有限数据来分析每个作者的偏见。

您可以使用gensim的实现。该文档包括到原始文件的链接。

— 半身人
source