Answers:
Jaccard相似度由
哪里,
p =两个对象均为正的属性数量
q = i的属性1的数量和j
的属性的数量0 r = i的属性0的数量以及j的属性1的数量
而,余弦相似度= ,其中A和B是对象向量。
简而言之,在余弦相似度中,公共属性的数量除以可能属性的总数。而在“ Jaccard相似性”中,公共属性的数量除以两个对象中至少一个存在的属性的数量。
还有许多其他的相似性度量,每种度量都有其自身的怪癖。在决定使用哪种索引时,请尝试考虑一些代表性的案例,并找出哪种索引可以提供最有用的结果来实现您的目标。
余弦索引可用于识别窃,但不是识别互联网上镜像站点的好索引。尽管Jaccard索引将是识别镜像站点的好索引,但在捕获复制的意大利面抄袭(在较大的文档中)方面并不是那么好。
应用这些索引时,您必须彻底考虑问题并弄清楚如何定义相似性。一旦有了定义,就可以购买索引。
编辑: 以前,我在此答案中包含一个示例,这最终是不正确的。感谢几个指出这一点的用户,我删除了错误的示例。
cosine_similarity(10*[1]+90*[0], 10*[1]+90*[0])
。当然,这里的余弦相似度也将为1,因为这两个度量都忽略了两个向量中均为零的那些元素。
我没有任何评论,因为我没有任何状态,但是检查的答案是错误的,以及未回答问题。∥A∥表示A的L2范数,即向量在欧几里得空间中的长度,而不是向量A的维数。换句话说,您不计算0位,而是将1位相加并取平方根。因此,长度为100的向量的10个属性的示例也是错误的。抱歉,对于何时应使用哪个指标,我没有真正的答案,但我不能只是让不正确的答案受到挑战。
Jaccard相似性用于两种类型的二进制情况:
余弦相似度通常在文本挖掘的上下文中用于比较文档或电子邮件。如果两个文档项向量之间的余弦相似度较高,则两个文档的共同词数更多
另一个区别是1-雅卡德系数可以用作相异度或距离量度,而余弦相似度则没有这样的构造。相似的是分类法中使用的Tonimoto距离。
cosine
是一种不同但并非无效的措施。