Questions tagged «cosine-similarity»

2
余弦相似度是否等于12归一化的欧式距离?
相同的含义是,对于向量u和向量V的集合之间的相似性排名,它将产生相同的结果。 我有一个向量空间模型,该模型具有距离度量(欧式距离,余弦相似度)和归一化技术(none,l1,l2)作为参数。根据我的理解,设置[余弦,无]的结果应该与[euclidean,l2]相同或至少真的非常相似,但事实并非如此。 实际上,系统仍然有可能出现故障,或者向量是否存在严重错误? 编辑:我忘了提到向量是基于语料库文档中的单词计数。给定一个查询文档(我也将其转换为单词计数向量),我想从我的语料库中找到与其最相似的文档。 仅计算它们的欧几里得距离是一个简单的方法,但是在我从事的任务中,余弦相似度通常被用作相似度指示符,因为仅长度不同的向量仍被视为相等。距离/余弦相似度最小的文档被认为是最相似的。

4
解释余弦负相似度
我的问题可能很愚蠢。所以我会提前道歉。 我正在尝试使用由Stanford NLP组预训练的GLOVE模型(链接)。但是,我注意到我的相似性结果显示为负数。 那立刻促使我看了字向量数据文件。显然,字向量中的值可以为负。这就解释了为什么我看到负余弦相似度。 我习惯了频率向量的余弦相似度的概念,其值以[0,1]为界。我知道一个事实,根据向量之间的夹角,点积和余弦函数可以为正也可以为负。但是,我确实很难理解和解释这种负余弦相似性。 例如,如果我有一对相似度为-0.1的单词,它们是否比另一对相似度为0.05的单词少?如何比较-0.9与0.8的相似性? 还是我应该看看的最小角度差的绝对值?分数的绝对值?nπnπn\pi 非常感谢。

1
余弦相似度,皮尔逊相关度和z得分之间是否有任何关系?
我想知道这三项措施之间是否有任何关系。我似乎无法通过引用定义在它们之间建立联系(可能是因为我是这些定义的新手,并且在掌握它们时花了一些时间)。 我知道余弦相似度的范围可以是0-1,并且皮尔逊相关性的范围可以是-1到1,并且我不确定z得分的范围。 但是,我不知道余弦相似度的某个值如何告诉您有关皮尔逊相关性或z分数的信息,反之亦然?

1
自动关键字提取:使用余弦相似度作为特征
我有一个文档项矩阵,现在我想使用一种监督学习方法(SVM,Naive Bayes等)为每个文档提取关键字。在此模型中,我已经使用了Tf-idf,Pos标签,...MMM 但是现在我想知道下一个。我有一个矩阵,两个词之间的余弦相似。CCC 是否可以将这种相似性用作模型的功能?我的想法是对长期在文档d,用平均所有条款的余弦相似的文档d足月我。这有用吗?iiiddddddiii

1
从性能上考虑词嵌入算法
我试图将大约6000万个短语嵌入向量空间,然后计算它们之间的余弦相似度。我一直在使用sklearn's CountVectorizer和一个自定义的生成标记器的函数,该函数会产生字母和二字组。事实证明,要获得有意义的表示,我必须允许大量列,行数成线性。这会导致矩阵稀疏,从而导致性能下降。如果只有大约10,000列,那还不错,我认为这对于单词嵌入来说是相当合理的。 我正在考虑尝试使用Google,word2vec因为我敢肯定它会产生低得多的尺寸和更密集的嵌入。但是在此之前,还有其他嵌入值得一看吗?关键要求是能够扩展大约6000万个短语(行)。 我对词嵌入领域还很陌生,因此任何建议都将对您有所帮助。 我还应该补充一点,我已经在使用奇异值分解来提高性能。

3
余弦相似度与欧几里得距离(LSA)的K均值
我正在使用潜在语义分析来表示较低维空间中的文档语料库。我想使用k均值将这些文档分为两组。 几年前,我使用Python的gensim并编写了自己的k-means算法来做到这一点。我使用欧几里得距离确定了聚类质心,但随后基于与质心的余弦相似度对每个文档聚类了。它似乎工作得很好。 现在,我正在尝试在更大的文档集上执行此操作。K-means没有收敛,我想知道这是否是我的代码中的错误。我最近读到您不应该使用余弦相似度进行聚类,因为k均值仅适用于欧几里得距离。即使正如我提到的那样,它在较小的测试用例中似乎也可以正常工作。 现在,我在LSA维基百科页面上发现了这一点: 可以使用传统的聚类算法(如k均值)和相似度(如余弦)对文档和术语向量表示进行聚类。 那是什么呢?是否可以使用余弦相似度?

2
线性变换后,余弦相似度如何变化?
之间是否存在数学关系: 余弦相似度 sim(A,B)sim⁡(A,B)\operatorname{sim}(A, B)两个向量的AAA和,和BBB 和的余弦相似度,通过给定矩阵不均匀缩放。这里是一个给定的对角矩阵,对角线上的元素不相等。A B M Msim(MA,MB)sim⁡(MA,MB)\operatorname{sim}(MA, MB)AAABBBMMMMMM 我试图查看计算结果,但无法达到简单/有趣的链接(表达式)。我想知道是否有一个。 例如,在非均匀缩放中不会保留角度,但是原始角度与非均匀缩放后的角度之间是什么关系?关于一组向量S1与另一组向量S2之间的联系,可以说什么-其中S2是通过非均匀缩放S1获得的?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.