Questions tagged «cosine-distance»

4
比较不同格式的文档时,TF-IDF和余弦相似度的替代方法
我一直在从事一个小型的个人项目,该项目需要用户的工作技能,并根据这些技能为他们建议最理想的职业。我使用工作清单数据库来实现这一目标。目前,代码的工作方式如下: 1)处理每个职位清单的文本以提取清单中提到的技能 2)对于每个职业(例如“数据分析师”),将针对该职业的工作清单的处理后的文本合并到一个文档中 3)计算职业文件中每种技能的TF-IDF 之后,我不确定应该使用哪种方法根据用户的技能列表对职业进行排名。我见过的最流行的方法是将用户的技能也视为文档,然后计算技能文档的TF-IDF,并使用余弦相似度来计算技能文档与每个文档之间的相似度。职业文件。 这对我来说似乎不是理想的解决方案,因为在比较两个相同格式的文档时,最好使用余弦相似度。因此,TF-IDF似乎根本不适合应用于用户的技能列表。例如,如果用户将其他技能添加到他们的列表中,则每个技能的TF都会下降。实际上,我不在乎用户技能列表中技能的频率是多少—我只是在乎他们是否拥有这些技能(也许他们对这些技能的了解程度如何)。 似乎更好的指标是执行以下操作: 1)对于用户拥有的每种技能,请在职业文档中计算该技能的TF-IDF 2)对于每个职业,将所有用户技能的TF-IDF结果相加 3)根据上述总和来排名职业 我在想这里的正确方法吗?如果是这样,是否有任何算法可以沿这条线运行,但比简单的总和还要复杂?谢谢您的帮助!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.