了解TF-IDF对数中对数的使用

但是我似乎无法确切地理解为什么以这种方式构造公式。

我的理解：

iDF应该在某种程度上衡量术语S在每个文档中出现的频率，并随着术语S出现频率的增加而降低其价值。

从这个角度来看

一世 d F （ 小号 ） = \frac{＃ 文件数量}{＃ 包含S的文档}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

此外，术语“频率”可以正确地描述为

Ť F （ 小号 ， d ） = \frac{＃ D中S的出现}{＃ 文档D中任何字符串Q的最大出现次数}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

因此，该措施

一世 d F （ 小号 ） \times Ť F （ 小号 ， d ）

$iDF(S) \times tf(S,D)$

在某种程度上与一个术语在给定文档中出现的频率以及该术语在文档集中的独特程度成正比。

我不明白的

但给出的公式将其描述为

（ 日志 （ 一世 d F （ 小号 ） ） ） （ \frac{1个}{2} + 日志 （ \frac{1个}{2} Ť F （ 小号 ， d ） ） ）

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

我希望理解定义中描述的对数的必要性。就像，为什么他们在那里？他们强调什么方面？

— frog豆
source

强调的方面是术语或文档的相关性不会随术语（或文档）的出现频率成比例地增加。因此，使用亚线性函数有助于减轻这种影响。为此，还分摊了非常大或非常小的值（例如，非常稀有的单词）的影响。最终，由于大多数人使用对数直观地认为评分函数在某种程度上是可加的，因此使得独立项的概率从看起来更像。 $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

由于维基百科的文章您链接笔记的理由 TF-IDF的是仍然没有行之有效的; 我们想要使严谨而不是要传递给现实世界的严谨概念是一种启发式。正如@ Anony-Mousse提到的那样，罗伯逊（Robertson）的《理解逆文档频率：关于IDF的理论论点》是一本很好的书。它对整个框架进行了广泛的概述，并尝试将TF-IDF方法用于搜索词的相关权重。

— usεr11852
source

TF-IDF的一些理由可以由方慧等（参见“信息检索启发式的正式研究。”，2004年PDF格式）。

— 阿列克谢·格里戈列夫

我认为这是TF-IDF理由的更好参考：Robertson，S.（2004）。“了解反文档频率：关于IDF的理论论证”。Journal of Documentation 60（5）：503–520。

— 已退出–Anony-Mousse

先生们，谢谢您的评论（并特别感谢Alexey的纠正\log，我一直都忘记了他们）；两者都+1。我看过罗伯逊（Robertson）的论文，并打算添加它。这是一本非常好的书，我将其添加到主体中。

— usεr11852

@ Anony-Mousse （pdf）

— 猫猫海象

我想知道为什么使用“文档D中任何字符串Q的最大出现次数”代替number of occurrences for all strings in document D。为什么我们要计数最普通的单词而不是全部单词？

— Xeoncross