Answers:
不能说这是最好的选择,但是潜在语义分析可能是一种选择。基本上,它是基于同现的,因此您需要首先对其加权。
http://en.wikipedia.org/wiki/Latent_semantic_analysis
http://lsa.colorado.edu/papers/dp1.LSAintro.pdf
问题在于LSA没有可靠的统计支持。
玩得开心
对文本进行分类的一种方法是通过计算术语频率和反向文档频率。您可以参考此文章:http : //www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf