2
为什么在文字语言识别中使用n-gram代替单词?
在两个流行的语言识别库中,C ++的紧凑语言检测器2和Java的语言检测器都使用了(基于字符的)n-gram提取文本特征。为什么不使用单词袋(单个单词/词典)?单词袋和n-gram的优缺点是什么? 另外,n-grams模型在文本分类中还有哪些其他用途? 哎呀 似乎这里有一个类似的问题: 关于使用bigram(N-gram)模型为文本文档构建特征向量 但是有人可以给出更全面的答案吗?在识别语言的情况下哪个更好? (希望我能正确理解n-gram和词袋的含义,哈哈,如果不能,请帮助我。)