我正在寻找基准GPS数据集,可免费用于研究目的。我已经从Microsoft Research 找到了GeoLife GPS轨迹数据集,但发现它有点不完整。
我需要的是一个人的GPS活动数据,例如(纬度,经度,日期)元组,至少要跟踪几个月,最好是连续跟踪。我也希望录音不稀疏。每条记录之间最多1分钟。
如果您能将我引向如此可靠的数据集,我将非常感激。
我正在寻找基准GPS数据集,可免费用于研究目的。我已经从Microsoft Research 找到了GeoLife GPS轨迹数据集,但发现它有点不完整。
我需要的是一个人的GPS活动数据,例如(纬度,经度,日期)元组,至少要跟踪几个月,最好是连续跟踪。我也希望录音不稀疏。每条记录之间最多1分钟。
如果您能将我引向如此可靠的数据集,我将非常感激。
Answers:
我能想到的最好的方法是OpenStreetMap提供的GPS跟踪。它们不会是连续的,但是有很多。
在OSM网站上,选择“ GPS轨迹”以查看可用于特定区域的内容。
我不会屏住呼吸。如此精确的数据将是一项艰巨的任务,并且会带来巨大的隐私隐患(即使一个人只有30天的时间,其中将包括43200个数据点(如果每分钟记录一次),并且无疑会确定该位置。
如果您对此类数据可以保存此建议的实质性问题感兴趣,将无济于事。但是,如果您只对处理此类海量数据的某种分析策略感兴趣,那么您应该能够简单地模拟该规模的数据,以达到您的目的。为了模拟数据,我建议您看一下R统计程序,尤其是spatstat和trip包(以及R中的所有空间模块)。
即使动物追踪数据在如此短的间隔内能满足您对数据点的要求,我也将持怀疑态度。我可以列举一些我读过的文章,这些文章使用手机数据来估计人类的活动模式,但是我读过的任何文章都不会花费那么长时间或频繁地测量个人活动。
一种选择是起草合同并雇用很多人。向他们提供GPS单元,该单元被配置为进行读取以提供所需的数据,足够的电池来续约以及说明(使用该电缆将其插入以每晚上传,向我发送此文件等)
您肯定需要在合同中写明如何限制数据的分布并匿名化以保护数据(也许在此人表示不公开的地方周围提供半英里的半径排斥),甚至您甚至考虑购买保险以防损失。如果人们的活动痕迹公开了,它们将充满诸如“我每天早上7:00上班,每天晚上19:00回家”之类的信息,地块看起来像是一个以星号为中心的巨型星号。在他们的房子上说:“在8:00和18:00之间抢劫这个地方”。您可以看到为什么需要关注隐私和安全性。
如果您考虑一下,就会要求一些非常昂贵的数据。如果没有足够大的统计数据集,它的价值将令人怀疑。考虑一下建筑工人(每座完工后的新通勤通勤者),邮政承运人(一条非常重复且蜿蜒的路线),上班族(一条主要是重复的直接路线)和拖车之间的不同轨迹。驾驶员(不断有新路线。)社会经济状况可能会影响痕迹:收入较低的人可能会更多地乘坐公交路线,而出行次数更少。学龄儿童的父母下班后通勤里程可能平均更高。更不用说驾驶Google Street View汽车的家伙了。
这些痕迹均不可能以任何有意义的方式与其他任何痕迹相交。
独特样式的数量可能是有限的,但数量如此之多,以至于需要大量的预算才能获得。那将只在一个城市中。
如果您更好地定义了目标,则可能可以获得较小(便宜)的数据集。如果您想量化各种类型的模式,也许您会在各个城市中对广泛的人群进行抽样。如果您想弄清楚谁将从大众运输中受益,或在通勤铁路走廊的何处铺设,则最好在计划服务和进行调查的区域内的各种道路上计算汽车数量。
最新消息显示,iPhone创建了一个长期运行的日志。也许您会找到愿意让您使用数据的参与者?
Open PFLOW项目提供:
开放数据集,用于市区典型人群的流动
可以提供东京都会区,而中京都会区似乎正在准备中。
可以在最近的出版物中找到详细信息:
柏山武浩,庞彦波,关本义秀,《开放的PFLOW:城市中典型人群大规模移动的开放数据集的创建和评估》,交通研究C部分:新兴技术(2017年),第85卷,第249–267页。
T-Drive轨迹数据集是最近发现的。它提供:
一周的10,357辆出租车的轨迹。该数据集中的点总数约为1500万,轨迹的总距离达到900万公里。
尽管与人体运动无关,但是Liquid Robotics公司通过PacX挑战提供了有趣的数据集。可下载有关航行于太平洋的四个机器人滑翔机的位置和环境传感器读数的数据。通过WIRED和此演讲,在博客上获得有关(非常酷)项目的更多信息。
解决隐私问题的另一种方法是使用动物跟踪数据。我想数据保护在这里将不再是一个问题。作为优势,您仍然可以使用真实的运动数据来测试您的软件/方法。缺点可能是,如果您的应用程序需要“特定于人类的”动作-它们可能不符合您的目的。
查看Movebank或DRYAD网站,以检查其某些数据是否适合您的项目。
至于Matthew提到的iPhone数据,您可以看一下众包和openpaths项目。也许有一种方法可以通过它们获取一些数据?更新:两个链接现在似乎都死了。
另一个选择是Chris Whong的NYC出租车数据的空间部分。它们仅提供上落地点,但是容量(11 GB!)和上下文信息(票价,乘客等)使它们真正具有吸引力(替代下载,有关数据引起的隐私问题的更多信息)。
UrškaDemšar在她最近发表的关于“根据自愿运动数据和上下文信息分析人类流动性”的论文中的帖子承诺:
还将很快有免费的自愿性GPS轨迹数据集与本文链接。敬请关注。
(更多信息)
更新:论文提到@ejel提到的CRAWDAD上的数据将可用,但我还没有找到。
另一种选择是自己创建综合数据集。如果您需要一些灵感,请参阅van Dijk J(2018)的最新论文,该文档通过具有多个移动窗口的GPS,数据和计算机,环境和城市系统来识别活动旅行点 (链接)。论文的附录中提供了更多详细信息,而github上提供了代码和示例数据集。
Tahina Expedition(Google地球博客)http://www.tahinaexpedition.com/map 去年大部分时间都在航行。
可以处理KML http://maps.google.com/maps/ms?source=embed&hl=zh-CN&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [gps跟踪现在已转换为kml]