Answers:
答案很简单:与一些监督方法结合使用时,TF-IDF可以比简单术语频率获得更好的结果。
典型示例是使用余弦相似度作为文档之间相似度的度量。以文档的TF-IDF矢量表示之间的夹角余弦值可以成功地检索相关的相似文档,其准确性比单独使用TF更高。
这是因为IDF减少了赋予常用词的权重,并突出显示了文档中不常用的词。大多数新闻不是关于鸵鸟的,因此包含“鸵鸟”的新闻是不寻常的,我们希望在查找相似的文档时知道这一点。
但是,如果使用标准的监督ML技术对文本进行分类,为什么要减少语料库中文档的频率来降低权重呢?学习者自己不会决定分配给每个单词/单词组合的重要性吗?
),那么我们就可以轻松完成自己的工作,以及我们糟糕的,过度劳累的计算机!我认为这是该领域未被充分了解的组成部分-人们花大量时间研究和考虑算法,因为它们与领域无关,但是了解更多有关您的数据和您要解决的问题可以为您找到解决方案改进的数据收集或数据表示,使任务变得如此简单-如此简单,以至于不需要华丽的复杂模型。
在这里可以找到许多资源,为方便起见,我将其复制。
斯帕克·琼斯(K. Sparck Jones)。“术语特异性的统计解释及其在检索中的应用”。Journal of Documentation,28(1)。1972年。
G. Salton和Edward Fox和Wu Harry Wu。“扩展的布尔信息检索”。ACM通讯,26(11)。1983年。
G. Salton和MJ McGill。“现代信息检索导论”。1983年
G. Salton和C. Buckley。“自动文本检索中的术语加权方法”。信息处理与管理,24(5)。1988年。
H. Wu和R. Luk和K. Wong和K. Kok。“将TF-IDF术语权重解释为相关性决策”。ACM信息系统交易,26(3)。2008。