统计和大数据 bag-of-words

如何量化字数向量中的离散量？我正在寻找一种统计数据，该统计数据对于文档A而言会很高，因为它包含许多不经常出现的单词，而对于文档B而言却很低，因为它包含一个经常出现的单词（或几个单词）。更一般而言，如何测量名义数据中的离散或“扩散”？文本分析社区中是否有标准的方法？

10 variance natural-language gini dispersion bag-of-words

Questions tagged «bag-of-words»