用于文本分类的词袋:为什么不只使用词频代替TFIDF?


24

文本分类的常用方法是从“词袋”中训练分类器。用户采用要分类的文本并计算每个对象中单词的出现频率,然后进行某种修整以使结果矩阵保持可管理的大小。

我经常看到用户使用TFIDF构建其特征向量。换句话说,上面提到的文本频率被语料库中单词的频率降低权重。我明白了为什么TFIDF对于选择给定文档的“最有区别”的单词以供显示给人类分析人员有用。但是,如果使用标准的监督ML技术对文本进行分类,为什么要减少语料库中文档的频率来降低​​权重呢?学习者自己不会决定分配给每个单词/单词组合的重要性吗?非常感谢您对IDF增值(如果有)的想法。

Answers:


29

答案很简单:与一些监督方法结合使用时,TF-IDF可以比简单术语频率获得更好的结果。

典型示例是使用余弦相似度作为文档之间相似度的度量。以文档的TF-IDF矢量表示之间的夹角余弦值可以成功地检索相关的相似文档,其准确性比单独使用TF更高。

这是因为IDF减少了赋予常用词的权重,并突出显示了文档中不常用的词。大多数新闻不是关于鸵鸟的,因此包含“鸵鸟”的新闻是不寻常的,我们希望在查找相似的文档时知道这一点。

但是,如果使用标准的监督ML技术对文本进行分类,为什么要减少语料库中文档的频率来降低​​权重呢?学习者自己不会决定分配给每个单词/单词组合的重要性吗?

XÿXÿÿ),那么我们就可以轻松完成自己的工作,以及我们糟糕的,过度劳累的计算机!我认为这是该领域未被充分了解的组成部分-人们花大量时间研究和考虑算法,因为它们与领域无关,但是了解更多有关您的数据和您要解决的问题可以为您找到解决方案改进的数据收集或数据表示,使任务变得如此简单-如此简单,以至于不需要华丽的复杂模型。

这里可以找到许多资源,为方便起见,我将其复制。

  • 斯帕克·琼斯(K. Sparck Jones)。“术语特异性的统计解释及其在检索中的应用”。Journal of Documentation,28(1)。1972年。

  • G. Salton和Edward Fox和Wu Harry Wu。“扩展的布尔信息检索”。ACM通讯,26(11)。1983年。

  • G. Salton和MJ McGill。“现代信息检索导论”。1983年

  • G. Salton和C. Buckley。“自动文本检索中的术语加权方法”。信息处理与管理,24(5)。1988年。

  • H. Wu和R. Luk和K. Wong和K. Kok。“将TF-IDF术语权重解释为相关性决策”。ACM信息系统交易,26(3)。2008。


感谢您提供@ user777的注释!欣赏它。我正在看那些文章。我们是否希望从TFIDF相对于TF优先受益于一般算法?
shf8888

@ shf8888我不确定是否有更好的通用课程。这是可能的!据我所知,从事NLP任务的人的第一个反应是在发展为更复杂的模型之前先尝试TF,然后尝试TF-IDF作为基线方法。这样,您可以量化使用日益复杂的模型所花费的精力,以增加购买多少性能。
Sycorax说恢复莫妮卡

非常感谢!好吧,从我的角度来看,“凭经验TFIDF可以通过某些算法提供比TF更高的性能”的答案(如果您不反对我的一句话摘要)绝对是个好主意。感谢您的参考。
shf8888

2

在典型情况下,您的语料库中可能有比带标签的文件更多的文件。这意味着在使用整个语料库时可以更准确,更完整地计算IDF。

接下来,考虑到目前为止您可以使用的语料库都被标记​​或标记的子集“足够大”的情况。在这种情况下,使用TfIDF时,训练所需的迭代次数可能会更少,因为学习算法不需要学习太多。

最后,在同一情况下,您也可以仅提供tf,或者分别提供tf和idf(甚至还包括tfidf)。我认为这可能会产生更好的结果,例如,当使用复杂的内核函数时。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.