关于使用bigram（N-gram）模型构建文本文档的特征向量

10

用于文本挖掘的特征构造的传统方法是词袋方法，并且可以使用tf-idf进行增强，以建立表征给定文本文档的特征向量。目前，我正在尝试使用Bi-gram语言模型或（N-gram）来构建特征向量，但还不太清楚该怎么做？我们是否可以仅遵循单词袋的方法，即以二元语法代替单词来计算频率计数，并使用tf-idf加权方案对其进行增强？

— 用户3125
source

4

是。但是，这将产生更多的功能：应用一些临界值（例如，舍弃二元字母或单词在数据集中出现少于5次的功能）可能很重要，以免分类器淹没过多的噪音特征。

— 奥格里塞尔
source

谢谢。您是说我按照二元（N-gram）计算每个特征值的总体思路是正确的吗？换句话说，在计算单词袋和N-gram模型之间的特征值时并没有太大差异。感谢您的澄清。

— user3125'2

是的，您可以在一大包功能中同时使用所有双字母组和unigram（单词）（只要您将最不频繁的内容与某些临界值一起修剪）。

— ogrisel'4

3

通过仅选择具有积极相互信息的双连词，可以减少双连词的数量。

我们这样做是为了在INEX XML Mining轨道http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp上生成一袋bigrams表示形式。

我们没有尝试过使用术语之间的相互信息对二元语法加权。见https://en.wikipedia.org/wiki/Pointwise_mutual_information，https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf和HTTP：//www.nltk。 org / howto / collocations.html可以更好地解释二元组的逐点相互信息。

参见/programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python和/programming/22118350/python-sentiment-analysis -使用Pointwise相互信息来解决与此相关的其他问题。

— 克里斯·德弗里斯
source

无效链接:-( ...-

— 雷诺德

1

@Renaud链接已更新:-)

— Chris de Vries

0

使用随机投影来减少数据的维度可能被证明有助于减少存储要素所需的空间，https://en.wikipedia.org/wiki/Random_projection。它可以很好地缩放，并且每个示例都可以独立投影到较低维度的空间，而无需任何直接优化方法，例如PCA，SVD，Sammon Maps，NMF等。

— 克里斯·德弗里斯
source