是否有人对与自定义报告编写相关的数据分析工作流有任何智慧?用例基本上是这样的:
客户委托使用数据分析的报告,例如水域的人口估计和相关地图。
分析人员下载一些数据,对数据进行删节并保存结果(例如,为每单位人口增加一列,或根据地区边界对数据进行分组)。
分析人员分析了在(2)中创建的数据,接近了她的目标,但是发现需要更多数据,因此回到(1)。
重复冲洗,直到表格和图形符合QA / QC并满足客户要求。
编写包含表格和图形的报告。
明年,满意的客户会回来并要求更新。这应该很简单,例如通过新的下载来更新上游数据(例如,从去年获得建筑许可),然后按“重新计算”按钮,除非规格更改。
目前,我只是启动一个目录,并尽其所能对其进行临时设置。我想要一个更系统的方法,所以我希望有人能解决这个问题……我使用了电子表格,SQL,ARCGIS,R和Unix工具。
谢谢!
PS:
下面是一个基本的Makefile,用于检查对各种中间数据集(带.RData
后缀)和脚本(.R
后缀)的依赖性。Make使用时间戳检查依赖关系,因此,如果使用touch ss07por.csv
,它将看到此文件比依赖它的所有文件/目标都新,并执行给定的脚本以相应地更新它们。这项工作仍在进行中,其中包括将数据放入SQL数据库的步骤以及诸如sweave之类的模板语言的步骤。请注意,Make的语法依赖制表符,因此在剪切和粘贴之前请先阅读手册。享受并给予反馈!
http://www.gnu.org/software/make/manual/html_node/index.html#Top
R = / home / wsprague / R-2.9.2 / bin / R persondata.RData:ImportData.R ../../DATA/ss07por.csv Functions.R $ R-从-f ImportData.R persondata.Munged.RData:MungeData.R persondata.RData Functions.R $ R --slave -f MungeData.R report.txt:TabulateAndGraph.R persondata.Munged.RData Functions.R $ R --slave -f TabulateAndGraph.R> report.txt