向量空间模型余弦tf-idf,用于查找相似文档
拥有超过百万份文档的语料库 对于给定的文档,想像在向量空间模型中一样使用余弦查找相似的文档 d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) 所有tf均已使用增强频率进行了归一化,以防止像以下tf-idf那样偏向于较长的文档: tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} 预先计算了所有 预先计算分母的值, 因此对于给定的需要得分超过100万d 2 相似度的阈值应为0.6余弦 d 1||d||||d||||d||d1d1d1d2d2d2 我可以观察到给定|的||d1||||d1||||d_1||范围相当狭窄 | d 2 | | 为余弦≥ 0.6 例如,在一个搜索类似为的余弦≥ 0.6和| | d 1 | | 之7.7631然后| | d 2 | | 范围从7.0867到8.8339, 超出余弦阈值0.6范围从到0.7223到89.3395, 这是标准tf文档归一化的||d2||||d2||||d_2||≥≥\ge≥≥\ge||d1||||d1||||d_1||||d2||||d2||||d_2||||d2||||d2||||d_2|| 它正在查看很多没有机会成为余弦0.6的机会 ||d2||||d2||||d_2|| 最后的问题是: 对于给定的和余弦> = …