我的问题可能很愚蠢。所以我会提前道歉。
我正在尝试使用由Stanford NLP组预训练的GLOVE模型(链接)。但是,我注意到我的相似性结果显示为负数。
那立刻促使我看了字向量数据文件。显然,字向量中的值可以为负。这就解释了为什么我看到负余弦相似度。
我习惯了频率向量的余弦相似度的概念,其值以[0,1]为界。我知道一个事实,根据向量之间的夹角,点积和余弦函数可以为正也可以为负。但是,我确实很难理解和解释这种负余弦相似性。
例如,如果我有一对相似度为-0.1的单词,它们是否比另一对相似度为0.05的单词少?如何比较-0.9与0.8的相似性?
还是我应该看看的最小角度差的绝对值?分数的绝对值?
非常感谢。
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
两者之间的唯一区别在于,相关偏差(矩)-交叉相乘-是均值,而余弦偏差是原始0-即它们是原样的值。