我想比较不同来源提到的同一单词之间的差异。也就是说,作者在使用诸如“民主”之类的定义不清的单词时有何不同。
一个简短的计划是
- 以提及“民主”一词的书籍为纯文本
- 在每本书中,替换
democracy
为democracy_%AuthorName%
word2vec
在这些书上训练模型- 计算之间的距离
democracy_AuthorA
,democracy_AuthorB
和“民主”的其他提及重新标记
因此,每个作者的“民主”都有自己的载体,用于比较。
但是,似乎word2vec
需要远远超过几本书(每个重新标记的单词仅在一部分书中出现)来训练可靠的向量。在官方网页推荐数据集,包括数十亿字。
我只是想问一问word2vec
,如果有的话,一个作者的书集的子集应该有多大?
1
您使用的只是与民主有关的书籍吗?如果不是,那么距离指标是否会因为书籍内容之间的较大差异而被淹没?这是您的问题的副作用,因为它存在于非常高的维度空间中,并且被维度诅咒的手所触及。也许只在感兴趣的单词周围仅保留一小段文本会有所帮助,但这仍然是一个很大的问题。
—
image_doctor 2015年
是的,这就是本质。这里带有一个可能是病态的思想隐喻。想象一下以颜色代表书籍的章节。一本书整体上是各章所有颜色的混合体。关于西欧民主的一本书的章节总和最终可能带有整体偏红色调。如果我们用蓝色来表示旅游业,那么一本关于古巴旅游业的书,其中只有一章关于民主及其对经济发展的影响,将具有强烈的蓝色调。因此,从整体上看,这两本书看起来会非常不同。
—
image_doctor
这是一种更容易理解的方式来说明数据科学家会说些什么,因为这两本书的向量在特征空间上相距甚远,因此看起来将大相径庭。事先很难量化不使用数据的情况下需要多少示例,但是语言是微妙的和分层的,因此您可能会希望获得尽可能多的示例……甚至更多。最终,直到您尝试了,您才知道。这不是一个具体的答案,但是除非有人直接做类似的事情,否则可能是最好的。
—
image_doctor
word2vec已经仅使用“感兴趣的单词周围的一小段文本”。该
—
jamesmf 2015年
window
参数设置上下文中有多少个单词用于训练您的单词w
@politicalscientist我尚未完成此项目。
—
安东·塔拉森科