word2vec需要多少训练数据?


10

我想比较不同来源提到的同一单词之间的差异。也就是说,作者在使用诸如“民主”之类的定义不清的单词时有何不同。

一个简短的计划是

  1. 以提及“民主”一词的书籍为纯文本
  2. 在每本书中,替换democracydemocracy_%AuthorName%
  3. word2vec在这些书上训练模型
  4. 计算之间的距离democracy_AuthorAdemocracy_AuthorB和“民主”的其他提及重新标记

因此,每个作者的“民主”都有自己的载体,用于比较。

但是,似乎word2vec需要远远超过几本书(每个重新标记的单词仅在一部分书中出现)来训练可靠的向量。在官方网页推荐数据集,包括数十亿字。

我只是想问一问word2vec,如果有的话,一个作者的书集的子集应该有多大?


1
您使用的只是与民主有关的书籍吗?如果不是,那么距离指标是否会因为书籍内容之间的较大差异而被淹没?这是您的问题的副作用,因为它存在于非常高的维度空间中,并且被维度诅咒的手所触及。也许只在感兴趣的单词周围仅保留一小段文本会有所帮助,但这仍然是一个很大的问题。
image_doctor 2015年

1
是的,这就是本质。这里带有一个可能是病态的思想隐喻。想象一下以颜色代表书籍的章节。一本书整体上是各章所有颜色的混合体。关于西欧民主的一本书的章节总和最终可能带有整体偏红色调。如果我们用蓝色来表示旅游业,那么一本关于古巴旅游业的书,其中只有一章关于民主及其对经济发展的影响,将具有强烈的蓝色调。因此,从整体上看,这两本书看起来会非常不同。
image_doctor

1
这是一种更容易理解的方式来说明数据科学家会说些什么,因为这两本书的向量在特征空间上相距甚远,因此看起来将大相径庭。事先很难量化不使用数据的情况下需要多少示例,但是语言是微妙的和分层的,因此您可能会希望获得尽可能多的示例……甚至更多。最终,直到您尝试了,您才知道。这不是一个具体的答案,但是除非有人直接做类似的事情,否则可能是最好的。
image_doctor

1
word2vec已经仅使用“感兴趣的单词周围的一小段文本”。该window参数设置上下文中有多少个单词用于训练您的单词w
jamesmf 2015年

1
@politicalscientist我尚未完成此项目。
安东·塔拉森科

Answers:


1

听起来doc2vec(或段落/上下文向量)可能是适合此问题的合适方法。

简而言之,除了单词向量外,还添加了一个“上下文向量”(在您的情况下为作者的嵌入),用于预测中心词或上下文词。

这意味着您将从所有有关“民主”的数据中受益,而且可以提取该作者的嵌入内容,这将使您能够使用每个作者的有限数据来分析每个作者的偏见。

您可以使用gensim的实现。该文档包括到原始文件的链接。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.