相同的含义是,对于向量u和向量V的集合之间的相似性排名,它将产生相同的结果。
我有一个向量空间模型,该模型具有距离度量(欧式距离,余弦相似度)和归一化技术(none,l1,l2)作为参数。根据我的理解,设置[余弦,无]的结果应该与[euclidean,l2]相同或至少真的非常相似,但事实并非如此。
实际上,系统仍然有可能出现故障,或者向量是否存在严重错误?
编辑:我忘了提到向量是基于语料库文档中的单词计数。给定一个查询文档(我也将其转换为单词计数向量),我想从我的语料库中找到与其最相似的文档。
仅计算它们的欧几里得距离是一个简单的方法,但是在我从事的任务中,余弦相似度通常被用作相似度指示符,因为仅长度不同的向量仍被视为相等。距离/余弦相似度最小的文档被认为是最相似的。
这完全取决于您的“向量空间模型”在这些距离下的作用。您能否更详细地说明模型的作用?
—
whuber
抱歉,有时候很难摆脱自己的想法。我添加了一个规范。
—
Arne 2015年
stats.stackexchange.com/a/36158/3277。任何角aka sscp类型的相似性都可以转换为其对应的欧几里得距离。
—
ttnphns