Answers:
从文本到地理坐标:地理编码的现状
丹尼尔·戈德堡(Daniel W. Goldberg),约翰·威尔逊(John P. Wilson)和克雷格·A·诺伯克(Craig A. Knoblock)摘要:本文通过对现有文献的跨学科历史回顾,对地理编码实践的最新状态进行了概述。我们探索了地理编码不断发展的概念以及该过程的基本组成部分。讨论了经常遇到的错误和不确定性来源,以及量化它们的现有方法。本文介绍了对地理编码过程中常见陷阱和持续挑战的检查,并介绍了克服这些陷阱的传统方法。
10.1.1.119.714.pdf
PDF(第34页以上) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.714&rep=rep1&type=pdf
Mapperz链接到的论文非常好,并且有很多引文可能会令人感兴趣,但是我认为它们在描述字符串匹配及其对地理编码过程的重要性方面做得并不出色。他们确实提到了Soundex,但是Soundex不是解决IMO的唯一选择,甚至不是最佳选择。他们确实列出了与该主题相关的很多引文,因此您将对这些论文感兴趣。
Stats交换站点上的该线程讨论的是模糊匹配两组字符串,并且在匹配地址时应用所有相同的技术。特别是,我认为使用编辑距离比Soundex更有意义,尤其是对于没有Soundex模拟的地址详细信息。计算两个字符串之间的Levenshtein距离并不那么复杂,它们在互联网上不胜枚举(这里是Python中的一个)。
我刚刚花了一个小时,试图找到ESRI如何实现其拼写敏感性以及不同的候选者和比赛分数。除了简单的描述(在本PDF和9.3的在线帮助部分中找到的最好的描述)之外,我什么都没有找到。因此,如果有人可以向我指出一些更详细的文档,那么我将不胜感激。
英国JISC提供的GEOREFERENCING邮件列表 https://www.jiscmail.ac.uk/cgi-bin/webadmin?A0=GEOREFERENCING
我的博客(地理编码部分)偶尔包含有关地理编码和地名解析(其非结构表亲)的帖子:http : //bit.ly/lQ0Sjs