词袋与向量空间模型?


12

这些文本表示模型之间的区别是什么:单词袋和向量空间模型?


词袋是一组代表独特词的理货。术语向量空间是一个稀疏的布尔向量,它也记录单词的位置。我认为。
user122160 '16

Answers:


15

词袋向量空间模型是指表征文本(如文档)的不同方面。Jurafsky和Martin在2009年的第23.1节“信息检索”中对“语音和语言处理”教科书进行了很好的描述。更为简洁的参考是Manning,Raghavan和Schütze于2008年在“用于评分的向量空间模型” 部分中的“ 信息检索简介”。

词袋指的是您可以从文档中提取什么样的信息(即,字母词)。向量空间模型是指每个文档的数据结构(即术语和术语权重对的特征向量)。这两个方面是相辅相成的。

进一步来说:

单词袋:对于给定的文档,您仅提取unigram单词(又称术语)以创建单词的无序列表。没有POS标签,没有语法,没有语义,没有位置,没有二元组,没有三元组。只有unigram单词本身,使一堆单词代表文档。因此:词袋

向量空间模型:给定从文档中提取的词袋,您将为文档创建特征向量,其中每个特征是一个词(术语),特征的值是一个术语权重。权重一词可能是:

  • 二进制值(1表示该术语出现在文档中,0表示没有出现);
  • 术语频率值(指示该术语在文档中出现了多少次);要么
  • TF-IDF值(例如,像1.23这样的小浮点数)。

因此,整个文档是一个特征向量,每个特征向量对应于向量空间中的一个点。该向量空间的模型使得词汇表中的每个术语都有一个轴,因此向量空间是V维的,其中V是词汇表的大小。向量在概念上也应该是V维的,每个词汇都具有一个特征。但是,由于词汇量可能很大(V = 100,000个术语的量级),因此文档的特征向量通常将仅包含该文档中出现的术语,而忽略未出现的术语。这样的特征向量被认为是稀疏的

因此,文档的矢量表示示例如下所示:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

其中,此示例向量具有文档ID(例如42),真实标签(例如政治)以及包括术语和术语频率对的特征和特征值列表。在这里,可以看出在该文档中出现了两次“不存在”。


1

是否是使用“词袋”将单词频率分配给文档项矩阵元素,并且在向量空间模型中,只要矢量空间中的运算(点积)有意义(tf-idf权重),文档项矩阵元素就非常通用例)?


是的,我还认为VSM是单词袋的改进版本。
samsamara 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.