如果这是正确的堆栈站点，则不能确定，但是可以。

.similiarity方法如何工作？

哇，太棒了！它的tfidf模型可能更容易，但是只有一行代码的w2v？

在他的关于spaCy和 razhribernik的10行教程中，向我们展示了可以在令牌，发送，词块和文档上运行的.similarity方法。

之后nlp = spacy.load('en')，doc = nlp(raw_text) 我们可以在令牌和块之间进行.likeness查询。但是，此.similarity方法在后台计算了什么？

SpaCy已经非常简单.vector，可以根据GloVe模型的训练来计算w2v向量（a .tfidf或.fasttextmethod会有多酷？）。

模型是简单地计算这两个w2v，.vector，向量之间的余弦相似度还是比较其他矩阵？具体细节在文档中不清楚; 任何帮助表示赞赏！

natural-language word2vec tf-idf nltk

— whs2k
source

1

“ .tfidf或.fasttext方法有多酷？” 该文档提供了用FastText替换GloVe向量的示例。将它们组合在一起可能并不完全相同。Github

— 卡尔·G

12

找出答案，总之，是的：

return numpy.dot(self.vector, other.vector) / (self.vector_norm * other.vector_norm)

这看起来像是它计算余弦相似度的公式，向量似乎是由SpaCy创建的.vector，据文献称，SpaCy 是从GloVe的w2v模型中训练出来的。

— whs2k
source

6

默认情况下，它是余弦相似度，矢量在文档中平均缺失的单词。

您还可以通过将挂钩设置为来自定义此设置doc.user_hooks['similarity']。该管道组件包装了相似性函数，从而可以轻松自定义相似性：

— 三段论_
source

从技术上讲，您似乎已链接到该SentenceSegmenter策略。

— 卡尔·G

SpaCy中的.similarity方法如何计算？