2
从噪声字符串列表中提取规范字符串
我有数千个字符串列表,每个列表都有大约10个字符串。给定列表中的大多数字符串都非常相似,尽管某些字符串(很少)与其他字符串完全无关,而某些字符串包含不相关的单词。可以将它们视为规范字符串的嘈杂变化。我正在寻找一种算法或库,可以将每个列表转换为该规范字符串。 这是一个这样的清单。 星球大战:第四集新希望 StarWars.com 星球大战第四集-新希望(1977) 星球大战:第四集-新希望-烂番茄 观看星球大战:第四集-免费在线新希望 星球大战(1977)-最伟大的电影 [REC] 4个海报承诺通过舷外发动机致死-SciFiNow 对于此列表,任何与正则表达式匹配的字符串^Star Wars:? Episode IV (- )?A New Hope$都是可以接受的。 我在Coursera上看过Andrew Ng的机器学习课程,但是找不到类似的问题。