Answers:
没错,余弦相似度与向量的点积有很多共同点。实际上,它是一个点积,按量级进行缩放。并且由于缩放,它在0到1之间归一化。CS是可取的,因为它考虑了数据的可变性和要素的相对频率。另一方面,纯点积有点“便宜”(就复杂性和实现而言)。
我想在上面给出的答案中再增加一个维度。通常我们对大文本使用余弦相似度,因为不建议在数据段上使用距离矩阵。而且,如果您打算将群集扩大,则倾向于使用余弦相似度,因为它总体上捕获了相似度。
例如,如果您的文本最长为两到三个字,那么我觉得使用余弦相似度无法达到距离度量所达到的精度。
正如其他人指出的那样,这些不是距离“度量”,因为它们不满足度量标准。改为说“距离测量”。
无论如何,您要测量什么,为什么?这些信息将帮助我们针对您的情况提供更有用的答案。