我有很多地址字符串:
1600 Pennsylvania Ave, Washington, DC 20500 USA
我想将它们解析为它们的组成部分:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
但是当然,数据是肮脏的:它来自许多国家,以多种语言编写,以不同的方式编写,包含拼写错误,丢失的片段,多余的垃圾等。
现在,我们的方法是将规则与模糊地名词典匹配结合使用,但是我们想探索机器学习技术。我们已将训练数据标记为监督学习。问题是,这是什么样的机器学习问题?它似乎并不是真正的聚类,分类或回归...。
我能想到的最接近的方法是对每个标记进行分类,但是您真的想同时对它们进行分类,以满足诸如“最多应有一个国家”的约束。确实有很多方法可以对字符串进行标记化,并且您想尝试每个字符串并选择最佳字符串。
那么:我可以探索哪些机器学习技术来解析地址?