我的课本将idf列为,其中
- :文件数
- :包含术语的文档数
维基百科将此公式列为实际的平滑版本。我了解的一个:范围从到,看起来很直观。
但是从到似乎太奇怪了……
我对语言建模的平滑知识有所了解,但是您会在分子中添加一些东西以及分母中,因为您担心概率质量。但是,只加对我来说没有意义。我们要在这里完成什么?
相关但不重复:stats.stackexchange.com/questions/152182/…–
—
Sycorax说莫妮卡(Reinstate Monica)
正确的平滑处理将是
—
ashishpatel.co.in 18'Mar