Answers:
通过仅选择具有积极相互信息的双连词,可以减少双连词的数量。
我们这样做是为了在INEX XML Mining轨道http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp上生成一袋bigrams表示形式。
我们没有尝试过使用术语之间的相互信息对二元语法加权。见https://en.wikipedia.org/wiki/Pointwise_mutual_information,https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf和HTTP://www.nltk。 org / howto / collocations.html可以更好地解释二元组的逐点相互信息。
参见/programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python和/programming/22118350/python-sentiment-analysis -使用Pointwise相互信息来解决与此相关的其他问题。
使用随机投影来减少数据的维度可能被证明有助于减少存储要素所需的空间,https://en.wikipedia.org/wiki/Random_projection。它可以很好地缩放,并且每个示例都可以独立投影到较低维度的空间,而无需任何直接优化方法,例如PCA,SVD,Sammon Maps,NMF等。