Answers:
词袋和向量空间模型是指表征文本(如文档)的不同方面。Jurafsky和Martin在2009年的第23.1节“信息检索”中对“语音和语言处理”教科书进行了很好的描述。更为简洁的参考是Manning,Raghavan和Schütze于2008年在“用于评分的向量空间模型” 部分中的“ 信息检索简介”。
词袋指的是您可以从文档中提取什么样的信息(即,字母词)。向量空间模型是指每个文档的数据结构(即术语和术语权重对的特征向量)。这两个方面是相辅相成的。
进一步来说:
单词袋:对于给定的文档,您仅提取unigram单词(又称术语)以创建单词的无序列表。没有POS标签,没有语法,没有语义,没有位置,没有二元组,没有三元组。只有unigram单词本身,使一堆单词代表文档。因此:词袋。
向量空间模型:给定从文档中提取的词袋,您将为文档创建特征向量,其中每个特征是一个词(术语),特征的值是一个术语权重。权重一词可能是:
因此,整个文档是一个特征向量,每个特征向量对应于向量空间中的一个点。该向量空间的模型使得词汇表中的每个术语都有一个轴,因此向量空间是V维的,其中V是词汇表的大小。向量在概念上也应该是V维的,每个词汇都具有一个特征。但是,由于词汇量可能很大(V = 100,000个术语的量级),因此文档的特征向量通常将仅包含该文档中出现的术语,而忽略未出现的术语。这样的特征向量被认为是稀疏的。
因此,文档的矢量表示示例如下所示:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
其中,此示例向量具有文档ID(例如42),真实标签(例如政治)以及包括术语和术语频率对的特征和特征值列表。在这里,可以看出在该文档中出现了两次“不存在”。
是否是使用“词袋”将单词频率分配给文档项矩阵元素,并且在向量空间模型中,只要矢量空间中的运算(点积)有意义(tf-idf权重),文档项矩阵元素就非常通用例)?