Questions tagged «levenshtein-distance»

11
获取最接近的字符串匹配
我需要一种将多个字符串与一个测试字符串进行比较并返回与其非常相似的字符串的方法: TEST STRING: THE BROWN FOX JUMPED OVER THE RED COW CHOICE A : THE RED COW JUMPED OVER THE GREEN CHICKEN CHOICE B : THE RED COW JUMPED OVER THE RED COW CHOICE C : THE RED FOX JUMPED OVER THE BROWN COW (如果我正确地做到了)与“ TEST STRING”最接近的字符串应该是“ CHOICE C”。最简单的方法是什么? 我计划将其实现为多种语言,包括VB.net,Lua和JavaScript。在这一点上,伪代码是可以接受的。如果您可以提供特定语言的示例,也将不胜感激!

2
Python中的高性能模糊字符串比较,使用Levenshtein或difflib
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 4年前关闭。 改善这个问题 我正在进行临床消息标准化(拼写检查),其中我对照900,000个单词的医学词典检查每个给定的单词。我更关心时间的复杂性/性能。 我想进行模糊字符串比较,但是不确定使用哪个库。 选项1: import Levenshtein Levenshtein.ratio('hello world', 'hello') Result: 0.625 选项2: import difflib difflib.SequenceMatcher(None, 'hello world', 'hello').ratio() Result: 0.625 在此示例中,两者给出相同的答案。您是否认为在这种情况下两者表现都一样?



1
Jaro-Winkler和Levenshtein距离之间的区别?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 6年前关闭。 改善这个问题 我有一个用例,需要对多个文件中的数百万条记录进行模糊匹配。我为此确定了两种算法:Jaro-Winkler和Levenshtein编辑距离。 当我开始探索两者时,我无法理解两者之间的确切区别。似乎Levenshtein给出了两个字符串之间的编辑次数,而Jaro-Winkler提供了0.0到1.0之间的归一化分数。我不了解该算法。 由于我需要使用任一种算法,因此我需要知道这两种算法之间的根本区别是什么。 其次,我想了解这两种算法之间的性能差异。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.