余弦相似度是否等于12归一化的欧式距离?


27

相同的含义是,对于向量u和向量V的集合之间的相似性排名,它将产生相同的结果。

我有一个向量空间模型,该模型具有距离度量(欧式距离,余弦相似度)和归一化技术(none,l1,l2)作为参数。根据我的理解,设置[余弦,无]的结果应该与[euclidean,l2]相同或至少真的非常相似,但事实并非如此。

实际上,系统仍然有可能出现故障,或者向量是否存在严重错误?

编辑:我忘了提到向量是基于语料库文档中的单词计数。给定一个查询文档(我也将其转换为单词计数向量),我想从我的语料库中找到与其最相似的文档。

仅计算它们的欧几里得距离是一个简单的方法,但是在我从事的任务中,余弦相似度通常被用作相似度指示符,因为仅长度不同的向量仍被视为相等。距离/余弦相似度最小的文档被认为是最相似的。


这完全取决于您的“向量空间模型”在这些距离下的作用。您能否更详细地说明模型的作用?
whuber

抱歉,有时候很难摆脱自己的想法。我添加了一个规范。
Arne 2015年

您仍然没有描述任何模型。实际上,关于“某种任务(您要从事的工作)”的唯一线索就是nlp标签,但这太广泛了,没有太大帮助。我希望您能够提供足够的信息,以便人们能够理解问题并提供良好的答案,以便能够准确地确定您如何使用距离测量以及如何确定“结果”。
whuber

stats.stackexchange.com/a/36158/3277。任何角aka sscp类型的相似性都可以转换为其对应的欧几里得距离。
ttnphns

Answers:


31

对于归一化向量, 我们得到平方的欧几里得距离与余弦距离成正比, 也就是说,即使您对数据进行了归一化,并且算法对于距离的缩放不变,但由于平方,您仍然会期望差异。Xÿ | | x | | 2 = | | y | | 2 = 1 | | xy | | 2 22Xÿ

||X||2=||ÿ||2=1个
||X-ÿ||22=X-ÿX-ÿ=XX-2Xÿ+ÿÿ=2-2Xÿ=2-2cosXÿ

这会对排名产生影响吗?意思是,如果我按照向量与向量'u'的余弦距离对多个向量'v_i in V'进行排序,我将获得特定的顺序。用l_2归一化的欧几里德距离对那些相同的向量进行排序是否会产生相同的阶数?
Arne 2015年

2
iirc,由于平方是单调变换(对于正数),因此它不能更改按长度排序的序列的顺序。
Arne 2015年

5
ü

谢谢,您是否有与此联系的可引用来源?
Arne 2015年

1
好吧,我想那时“ Linear Alebra I”就足够了;)再次感谢您的见解!
Arne 2015年

5

üv

cosüv=üvüv=üŤvüv[-1个1个]
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.