ESRI中的大规模地理编码和处理

好的，所以我想这种非正式的查询/调查是关于您在ESRI世界中使用的数据集的大小...

我正在建立和维护一个州范围的数据集，在这里我必须处理到各个房屋级别，而不是包裹级别，但对于我们的系统，每个包裹有多个邮寄地址。在许多地方，我使用的理论地址是根据街道网络或USPS AMS / AIS数据计算得出的。因此，我的地址列表大约有1,350万个地址，并且每月或每季度增长。

现在有没有人维护一个实时的地址/正确查找信息系统，该系统在连续数据集中如此之大？

我很想合作或谈论其他人如何处理如此大的数据集。我在尝试执行诸如相交或空间连接之类的任务时，看到ESRI软件似乎被炸毁的问题。ESRI说他们看不到这类问题，但是从9.3.1开始我就遇到了这些问题，所以我不能成为第一个/唯一这样做的人，因为我可以在多台机器上重新创建它。

我的平台现在是桌面上的ESRI ArcGIS 10，使用GEOMETRY空间对象与SQL2008后端上的ArcSDE 9.3.1-sp1进行通信。因此，我没有做任何真正具有异国情调的事情；但在我看来，在某些领域我可能仍在努力。

[进一步]

我感兴趣的是，其他人正在做什么以优化那里的处理这些数据集的流程。我将每月增加一百万条记录，并且当您开始运行其他进程并将数据链接以进行进一步分析时，地理编码等并不是问题，您开始处理复杂的联接。好了，您使用Only_FID从“相交” /“覆盖” /“标识”输出数据，并且您也得到了一个瘦的中间表来联接；但是，当您开始尝试对表的创建进行划分和征服时，您会遇到一些问题，需要将源数据划分为工作区，但是又重复了IDS，无法合并回去。因此，您剩下的是较小的数据块，这些数据块您很难轻易地重新进行完整处理。

考虑将数据分解为县级尺度的选项，然后使用空间视图将其重新组合在一起，等等。。。很好奇是否其他用户正在以如此大的规模看同样大小的问题脚印。

arcgis-10.0 enterprise-geodatabase arcgis-9.3

— D.E. Wright
source

6000万个地址在Oracle Spatial（11g）ArcSDE中进行了地理编码，并在ArcGIS和Web App（内部）中实现了可视化。它不是地理编码的地址，而是模糊的（地址不匹配），这是一个很好的指南scdhec.gov/gis/presentations/ESRI_Conference_08/tws/workshops/…–

— Mapperz

我同意，地理编码从来都不是问题。我的问题是当您拥有如此庞大的数据集时，您需要拥有一个连续流程，而其他流程变得非常困难。函数/任务（例如“相交”，“空间联接”等），然后必须在高度标准化的环境中将其联接到其他数据以进行建模。

— DEWright 2011年

您的空间数据是否已编制索引？根据文档，SQL Server使用B树索引。尝试使用GIST索引将数据加载到PostGIS数据库中，并比较性能。这将告诉您是否是SQL Server问题。

— 肖恩

这种事情没有问题，但是我总体上看到的是，当您处理许多问题时，如果要运行很长时间的深层功能，您会寻找优化它们的方法。我很好奇其他大型用户在做什么。

— DEWright 2011年

如果问题是开放的，则应改写为社区Wiki。

— 肖恩

由于这是一个（旧的）开放式问题，我将为您提供一个开放式的答案：正确使用数据库可以节省大量时间。做某事的明显方法不一定是最快的，例如，当我最近想从Oracle删除很多行时，结果发现只是发送：delete from TABLE1 where ID = 123对于每个功能来说都非常慢，而且我可以做一些奇特的Oracle工作使它快几个数量级。

因此，基本上，如果您发现一个特定的瓶颈问题，请向专家提出与该瓶颈有关的特定问题。因此，对于可能在此处的ArcGIS方面（或ESRI论坛或您的ESRI支持），但是对于数据库方面的问题（如果在此进行操作，通常会更快），您可以在http ：//www.stackoverflow.com

— 地理信息系统
source

没有那么多开放的结局。但更多地寻求更好的理论方法来处理该主题。我最近的道路是让我建立自己的模糊查找逻辑，以与自己的SQL2008 DB进行对话。消除对ESRI引擎的依赖，以依赖于调整良好的索引来尝试并使其更快。由于我们对BING或Google引擎的内部了解不多，因此只能假设它们会使用自己的细粒度逻辑。

— DEWright 2012年

你可以从他们的研究论文找出了不少谷歌的幕后场景- research.google.com/pubs/papers.html

— GIS乔纳森