我有数千个字符串列表,每个列表都有大约10个字符串。给定列表中的大多数字符串都非常相似,尽管某些字符串(很少)与其他字符串完全无关,而某些字符串包含不相关的单词。可以将它们视为规范字符串的嘈杂变化。我正在寻找一种算法或库,可以将每个列表转换为该规范字符串。
这是一个这样的清单。
- 星球大战:第四集新希望 StarWars.com
- 星球大战第四集-新希望(1977)
- 星球大战:第四集-新希望-烂番茄
- 观看星球大战:第四集-免费在线新希望
- 星球大战(1977)-最伟大的电影
- [REC] 4个海报承诺通过舷外发动机致死-SciFiNow
对于此列表,任何与正则表达式匹配的字符串^Star Wars:? Episode IV (- )?A New Hope$
都是可以接受的。
我在Coursera上看过Andrew Ng的机器学习课程,但是找不到类似的问题。