寻求空间ETL(提取,转换,加载)的选项?


33

我对各种空间ETL(提取,转换,加载)工具的优缺点感兴趣。如果您使用了此处列出的项目(或添加了自己的项目),我会征求您的意见和经验。我特别希望看到以下方面的可用性比较:

无需审查提到的所有软件。如果您即使有经验,那也将非常有利于决定选择哪个方向。

示例:我正在寻求创建一个模式转换功能,该功能将允许我选择输入层,创建转换并输出到新的预定义模式。理想情况下,创建翻译脚本后,我希望有一个交互式表单,可以在其中将输入层中的字段“映射”到输出层(即-输出层中将有一个名为“ Address”的字段,即所谓的“地址”在输入层中?)

在“问答”中提到了一些工具哪些工具可用于将gis数据上传到数据库?

这是我发现的一些相关文章。

Answers:


17

该问题已转换为“社区Wiki”,并且Wiki已锁定,因为它是一个问题的示例,它寻求答案列表,并且似乎很受欢迎,可以防止其被关闭。应该将其视为特殊情况,并且不应将其视为鼓励在此站点或任何Stack Exchange网站上使用的问题类型,但是如果您希望向其中提供更多内容,请随时编辑此答案。


我只说说我在专业背景下所看到的。我的一名学生与一家企业合作,负责接收,验证并将来自知名数据源(TeleAtlas)的大量空间数据集成到GIS中。她使用FME使用了多个工作流程,可以从格式到另一格式进行非常复杂的验证和转换,例如特征选择,拓扑验证,重复项删除等。此后,该工作流程能够自动处理传入的数据集。

我正在陪审团审阅一份活期缓刑报告(对不起,谷歌翻译成“ soutenance de rapport de stage”),学生在其中描述了另一个类似的FME工作流程,但这一次是为了验证发送到国家级进行整合的区域数据集进入国家风险数据库。主要区别在于,在最后一个示例中,数据集具有非常多样化的文件格式,栅格和矢量,比例和样式。

最后,我测试了Spatial Data Integrator,它是基于Talend Open Studio的开源ETL。功能众多,但少于FME,但我认为主要区别在于文档和工作流创建的用户友好性。我经常被迫修改工作流组件的Java代码源。但这是SDI的较早版本,我在这里描述的缺点在开始时对于开放源代码项目来说是很常见的,我们无法在相同水平上比较专有的完善软件和免费的开放源代码年轻竞争者。


24

对于最近使用数GB空间数据的项目,我开始使用FME进行数据加载/重新投影。它运作良好,但是有一个学习曲线。

在项目结束时,我正在使用Python脚本来自动化重新审核过程。FME可以编写脚本,但是如果您具有Python基础知识,为什么还要进一步使事情复杂化?Python为您提供了完全的灵活性,并且通过编写每个导入脚本,您的Python技能都在提高。

我发现以下Python软件包在处理数据转换时非常有价值:

如果您有开发人员/编程背景,建议您使用Python;如果您更喜欢使用GUI(它也可以为文档生成漂亮的图像),则建议您使用FME。


11

我喜欢开源,但据我所知,FME很容易在开源ETL中胜出。实际上,维护和支持也非常便宜(至少与我们拥有的其他大多数公司解决方案相比)。

如果您正在寻找格式之间的转换,那么OGR可以做到(将一些管道转换成GDAL以进行转换)。当然,这是命令行

对于超出“可能重复”注释中列出的外观的可视化建模,他们正在使用QGIS / SEXTANTE模型构建器;概念证明视频:https : //www.youtube.com/watch?v=LTUu-I2ouqU

(不,我不为Safe工作,我只是一个相对满意的客户)。


视频链接已断开。你能修好它吗?
GeoStoneMarten


6

大约一年前,我对各种工具进行了比较,其中还包含此线程中提到的大多数选项。

作为一个更直接的答案,由于其多功能性,我经常使用FME。但是,当我处理诸如CityGML,INSPIRE GML或更大的数据库模型之类的复杂数据结构时,我会使用HALE,这是一种为ETL开发的开源应用程序,特别是协调功能。

在此处输入图片说明

当前(从2.9.0版开始)与FME(2014 SP1)的比较如下:

  • HALE格式(HALE:20,FME 200)和转换器(HALE:30 +,FME:400多种)的数量较少,但是对所有XML / GML方言的支持都很好
  • HALE在地图和表格视图中以交互方式预览转换结果,并直接验证输出
  • 通常,HALE更快,因为每个属性的本地上下文都得到维护,例如,为您节省了很多FeatureMergers
  • HALE是开源的,自2010年起投入生产
  • HALE使用声明性映射UI,与程序方法相比,所需的用户输入数量更少

请注意,我已经在HALE团队工作了很多年。


您如何看待它今天与FME的叠加?特别是对于Web和geoRSS数据提要?
YSG博士

@ YSG.Dr。Yhal的维护是在2015年由wetransform GmbH接管的,因此,现在有一支专门的团队负责其开发。在过去的四年中取得了长足的发展。更改记录在GitHub发行说明中。它支持处理JSON / GeoJSON数据。GeoRSS是一种简单的XML格式,可重复使用GML的某些部分,因此也得到了完全的支持。要自动处理GeoRSS提要,您需要研究hale-cli(命令行界面和其他API)。
tr_xsdi

5

如果您查看blah238s重复链接,则会找到更多信息。我想说的是Talend Open Studio和Pentaho GeoKettle是人们可以选择的最杰出的开源解决方案。据我所读,在这两个Talend目标中,不仅仅是ETL和GeoKettle,更易于使用。

瑞典政府将允许GeoKettle编写由瑞典地方政府和地区协会(SALAR)整合而成的GML方言,我们需要这种格式将地理数据传递到不同的商业机构。

我相信GeoKettle从2.0版开始支持OGR / GDAL。


5

FME可能是在该领域中使用的最佳产品。之后是GDAL / OGR。这个领域的另一个开源产品是geokettle- http://www.spatialytics.org/projects/geokettle/,尽管我从未因为愤怒而使用过它(很幸运能同时提到其他两个产品)。

如果这些通用选项都不起作用,则可能要使用特定的转换工具。


3

除非您习惯使用Eclipse UI,否则请忠实地将Geokettle用于一个小项目的高学习曲线...确实功能强大,因为它针对GDAL1.10进行编译支持所有地理类型...我喜欢它对存储的数据和通过服务的数据的支持...我使用它来通过ESRI json在本地Postgis实例上重新创建和同步ArcGIS Server数据集,并将其同步到GeoJSON ...工作流可以建立条件并进行验证,以查询#objectid并基于该ID编译预定义的csv可以根据第一个查询一次迭代500个功能的发布请求,从而能够将所有请求合并到一个geojson文件中,运行ogr2ogr以加载到postgis甚至脚本化postgis以运行真空并对其进行索引...风扇

您可以运行它并在桌面GUI上映射工作流,并使用pentahos服务器工具在Hadoop上进行设置并将其作为脚本或cron作业运行。


3

QGIS(至少从当前的2.6版本开始)现在还具有集成的模型构建器。通过此工具箱,您可以访问各种算法(GDAL,GRASS,SAGA,vectortools等)。您也可以添加自己的脚本。

我必须承认我没有广泛使用它,但是如果我正在寻找模型构建者,我认为它值得研究。


0

[警告:我所参与产品的免费促销]

我们一直在研究执行ETL的工具。它的风格类似于FME,但设计用于更简单的任务,并且需要较少的专业知识。可以在https://www.geoactive.cn上找到一些详细信息。它只是查找有关Data Dragon的信息。此应用程序在后端使用GDAL / OGR,我们正在将我们添加的所有功能推回GDAL / OGR。

商业用途需要购买它,但我们确实有免费的学术许可证,因此如果您想将其用于学习,请给我发消息,我会为您提供更多详细信息。

这是处于早期发布阶段,因此仍然存在一些小错误,因此请对我们谨慎。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.