我正在阅读:
https://zh.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
但是我似乎无法确切地理解为什么以这种方式构造公式。
我的理解:
iDF应该在某种程度上衡量术语S在每个文档中出现的频率,并随着术语S出现频率的增加而降低其价值。
从这个角度来看
此外,术语“频率”可以正确地描述为
因此,该措施
在某种程度上与一个术语在给定文档中出现的频率以及该术语在文档集中的独特程度成正比。
我不明白的
但给出的公式将其描述为
我希望理解定义中描述的对数的必要性。就像,为什么他们在那里?他们强调什么方面?