Questions tagged «similarity»


4
Jaccard相似度和余弦相似度的应用和差异
雅卡德相似度和余弦相似度是比较项目相似度时的两个非常常见的度量。但是,我不清楚在哪种情况下哪个应该比另一个更好。 有人可以帮助澄清这两个度量的差异(概念或原理的差异,而不是定义或计算的差异)及其优选应用吗?
27 similarity 

5
句子相似度的最佳实用算法
我有两个句子S1和S2,它们的字数通常都在15以下。 什么是最实用,最成功的(机器学习)算法,这些算法可能易于实现(神经网络可以,除非架构像Google Inception等那样复杂)。 我正在寻找一种不会花太多时间就能正常工作的算法。您是否发现任何成功且易于使用的算法? 这可以但不必属于群集类别。我的背景是机器学习的知识,所以欢迎提出任何建议:)

4
基于相似度分数的聚类
假设我们有一组元素E和两个元素ei,ej∈E之间的相似度函数(而不是距离)sim(ei,ej)。 我们如何使用sim(有效地)将E的元素聚类? ķ -means,例如,需要在给定ķ,雨棚聚类需要两个阈值。如果我们不想要这样的预定义参数怎么办? 注意,sim不一定是度量(即三角形不等式可能成立,也可能不成立)。此外,簇是否不相交(E的分区)也没关系。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
句子相似度预测
我正在寻求解决以下问题:我有一组句子作为我的数据集,并且我希望能够键入一个新句子,并找到该新句子与数据集中最相似的句子。一个示例如下所示: 新句子:“ I opened a new mailbox” 基于数据集的预测: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% 我已经读到余弦相似度可以用来解决与tf-idf配对的这类问题(RNN不应对基本方法带来重大改进),或者word2vec也可以用于相似的问题。那些在这种特定情况下实际可行吗?是否有其他技术/算法可以解决此问题(最好使用Python和SKLearn,但我也愿意学习TensorFlow)?

4
比较不同格式的文档时,TF-IDF和余弦相似度的替代方法
我一直在从事一个小型的个人项目,该项目需要用户的工作技能,并根据这些技能为他们建议最理想的职业。我使用工作清单数据库来实现这一目标。目前,代码的工作方式如下: 1)处理每个职位清单的文本以提取清单中提到的技能 2)对于每个职业(例如“数据分析师”),将针对该职业的工作清单的处理后的文本合并到一个文档中 3)计算职业文件中每种技能的TF-IDF 之后,我不确定应该使用哪种方法根据用户的技能列表对职业进行排名。我见过的最流行的方法是将用户的技能也视为文档,然后计算技能文档的TF-IDF,并使用余弦相似度来计算技能文档与每个文档之间的相似度。职业文件。 这对我来说似乎不是理想的解决方案,因为在比较两个相同格式的文档时,最好使用余弦相似度。因此,TF-IDF似乎根本不适合应用于用户的技能列表。例如,如果用户将其他技能添加到他们的列表中,则每个技能的TF都会下降。实际上,我不在乎用户技能列表中技能的频率是多少—我只是在乎他们是否拥有这些技能(也许他们对这些技能的了解程度如何)。 似乎更好的指标是执行以下操作: 1)对于用户拥有的每种技能,请在职业文档中计算该技能的TF-IDF 2)对于每个职业,将所有用户技能的TF-IDF结果相加 3)根据上述总和来排名职业 我在想这里的正确方法吗?如果是这样,是否有任何算法可以沿这条线运行,但比简单的总和还要复杂?谢谢您的帮助!

1
MinHashing vs SimHashing
假设我有五组要聚类。我了解SimHashing技术在这里描述: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能产生三个集群({A},{B,C,D}和{E}),举例来说,如果其结果是: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 同样,MMDS书籍的第3章中介绍了MinHashing技术: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 如果其结果是,也可以产生相同的三个聚类: A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> h04 - h07 - h08 | D -> h09 - h10 - …

3
向量空间模型余弦tf-idf,用于查找相似文档
拥有超过百万份文档的语料库 对于给定的文档,想像在向量空间模型中一样使用余弦查找相似的文档 d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) 所有tf均已使用增强频率进行了归一化,以防止像以下tf-idf那样偏向于较长的文档: tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} 预先计算了所有 预先计算分母的值, 因此对于给定的需要得分超过100万d 2 相似度的阈值应为0.6余弦 d 1||d||||d||||d||d1d1d1d2d2d2 我可以观察到给定|的||d1||||d1||||d_1||范围相当狭窄 | d 2 | | 为余弦≥ 0.6 例如,在一个搜索类似为的余弦≥ 0.6和| | d 1 | | 之7.7631然后| | d 2 | | 范围从7.0867到8.8339, 超出余弦阈值0.6范围从到0.7223到89.3395, 这是标准tf文档归一化的||d2||||d2||||d_2||≥≥\ge≥≥\ge||d1||||d1||||d_1||||d2||||d2||||d_2||||d2||||d2||||d_2|| 它正在查看很多没有机会成为余弦0.6的机会 ||d2||||d2||||d_2|| 最后的问题是: 对于给定的和余弦> = …

2
从噪声字符串列表中提取规范字符串
我有数千个字符串列表,每个列表都有大约10个字符串。给定列表中的大多数字符串都非常相似,尽管某些字符串(很少)与其他字符串完全无关,而某些字符串包含不相关的单词。可以将它们视为规范字符串的嘈杂变化。我正在寻找一种算法或库,可以将每个列表转换为该规范字符串。 这是一个这样的清单。 星球大战:第四集新希望 StarWars.com 星球大战第四集-新希望(1977) 星球大战:第四集-新希望-烂番茄 观看星球大战:第四集-免费在线新希望 星球大战(1977)-最伟大的电影 [REC] 4个海报承诺通过舷外发动机致死-SciFiNow 对于此列表,任何与正则表达式匹配的字符串^Star Wars:? Episode IV (- )?A New Hope$都是可以接受的。 我在Coursera上看过Andrew Ng的机器学习课程,但是找不到类似的问题。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.