5 如何测量词频数据中的离散度? 如何量化字数向量中的离散量?我正在寻找一种统计数据,该统计数据对于文档A而言会很高,因为它包含许多不经常出现的单词,而对于文档B而言却很低,因为它包含一个经常出现的单词(或几个单词)。 更一般而言,如何测量名义数据中的离散或“扩散”? 文本分析社区中是否有标准的方法? 10 variance natural-language gini dispersion bag-of-words