关于使用bigram(N-gram)模型构建文本文档的特征向量


10

用于文本挖掘的特征构造的传统方法是词袋方法,并且可以使用tf-idf进行增强,以建立表征给定文本文档的特征向量。目前,我正在尝试使用Bi-gram语言模型或(N-gram)来构建特征向量,但还不太清楚该怎么做?我们是否可以仅遵循单词袋的方法,即以二元语法代替单词来计算频率计数,并使用tf-idf加权方案对其进行增强?

Answers:


4

是。但是,这将产生更多的功能:应用一些临界值(例如,舍弃二元字母或单词在数据集中出现少于5次的功能)可能很重要,以免分类器淹没过多的噪音特征。


谢谢。您是说我按照二元(N-gram)计算每个特征值的总体思路是正确的吗?换句话说,在计算单词袋和N-gram模型之间的特征值时并没有太大差异。感谢您的澄清。
user3125'2

是的,您可以在一大包功能中同时使用所有双字母组和unigram(单词)(只要您将最不频繁的内容与某些临界值一起修剪)。
ogrisel'4

3

通过仅选择具有积极相互信息的双连词,可以减少双连词的数量。

我们这样做是为了在INEX XML Mining轨道http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp上生成一袋bigrams表示形式。

我们没有尝试过使用术语之间的相互信息对二元语法加权。见https://en.wikipedia.org/wiki/Pointwise_mutual_informationhttps://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdfHTTP://www.nltk。 org / howto / collocations.html可以更好地解释二元组的逐点相互信息。

参见/programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python/programming/22118350/python-sentiment-analysis -使用Pointwise相互信息来解决与此相关的其他问题。


无效链接:-( ...-
雷诺德

1
@Renaud链接已更新:-)
Chris de Vries

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.