需要基准GPS轨迹数据集吗?


13

我正在寻找基准GPS数据集,可免费用于研究目的。我已经从Microsoft Research 找到了GeoLife GPS轨迹数据集,但发现它有点不完整。

我需要的是一个人的GPS活动数据,例如(纬度,经度,日期)元组,至少要跟踪几个月,最好是连续跟踪。我也希望录音不稀疏。每条记录之间最多1分钟。

如果您能将我引向如此可靠的数据集,我将非常感激。


2
此数据集是否必须是人类的?(到目前为止,您对所有词语的表述方式是肯定的,但我认为并未明确声明。)
Dan S.

Answers:


17

我认为您最好的机会将是跟踪自己。如果这个想法困扰您,那就是为什么您不会在任何地方公开这些数据的原因。



4

我不会屏住呼吸。如此精确的数据将是一项艰巨的任务,并且会带来巨大的隐私隐患(即使一个人只有30天的时间,其中将包括43200个数据点(如果每分钟记录一次),并且无疑会确定该位置。

如果您对此类数据可以保存此建议的实质性问题感兴趣,将无济于事。但是,如果您只对处理此类海量数据的某种分析策略感兴趣,那么您应该能够简单地模拟该规模的数据,以达到您的目的。为了模拟数据,我建议您看一下R统计程序,尤其是spatstattrip包(以及R中的所有空间模块)。

即使动物追踪数据在如此短的间隔内能满足您对数据点的要求,我也将持怀疑态度。我可以列举一些我读过的文章,这些文章使用手机数据来估计人类的活动模式,但是我读过的任何文章都不会花费那么长时间或频繁地测量个人活动。


4

一种选择是起草合同并雇用很多人。向他们提供GPS单元,该单元被配置为进行读取以提供所需的数据,足够的电池来续约以及说明(使用该电缆将其插入以每晚上传,向我发送此文件等)

您肯定需要在合同中写明如何限制数据的分布并匿名化以保护数据(也许在此人表示不公开的地方周围提供半英里的半径排斥),甚至您甚至考虑购买保险以防损失。如果人们的活动痕迹公开了,它们将充满诸如“我每天早上7:00上班,每天晚上19:00回家”之类的信息,地块看起来像是一个以星号为中心的巨型星号。在他们的房子上说:“在8:00和18:00之间抢劫这个地方”。您可以看到为什么需要关注隐私和安全性。

如果您考虑一下,就会要求一些非常昂贵的数据。如果没有足够大的统计数据集,它的价值将令人怀疑。考虑一下建筑工人(每座完工后的新通勤通勤者),邮政承运人(一条非常重复且蜿蜒的路线),上班族(一条主要是重复的直接路线)和拖车之间的不同轨迹。驾驶员(不断有新路线。)社会经济状况可能会影响痕迹:收入较低的人可能会更多地乘坐公交路线,而出行次数更少。学龄儿童的父母下班后通勤里程可能平均更高。更不用说驾驶Google Street View汽车的家伙了。

这些痕迹均不可能以任何有意义的方式与其他任何痕迹相交。

独特样式的数量可能是有限的,但数量如此之多,以至于需要大量的预算才能获得。那将只在一个城市中。

如果您更好地定义了目标,则可能可以获得较小(便宜)的数据集。如果您想量化各种类型的模式,也许您会在各个城市中对广泛的人群进行抽样。如果您想弄清楚谁将从大众运输中受益,或在通勤铁路走廊的何处铺设,则最好在计划服务和进行调查的区域内的各种道路上计算汽车数量。


2

我还在寻找您要查找的数据集的确切类型。不幸的是,到目前为止我还没有找到。尽管有GeoLife数据,但我发现的另一个来源是CRAWDAD。该站点有来自旧金山出租车和纽约行人的GPS日志。不幸的是,对于纽约市的行人,他们仅提供相对坐标,而不是纬度/经度。


2

在许多研究主题中,出于道德原因无法获得回答问题所需的数据,并且超出这些界限的实验可能会导致将来的限制,就像米尔格拉姆实验那样。最近,由于对隐私的关注,AOL不得不撤出一系列搜索查询,而关于电子邮件习惯的唯一可靠数据集来自Enron试用

因此,尽管从技术上来说完全可能获得这样的轨迹数据集,但由于涉及隐私问题,它可能永远都不可行。正如其他答案所提到的,相对数据集,个人汇总或模拟可能都是解决您的问题的更好方法,同时避免了隐私问题。



2

Open PFLOW项目提供:

开放数据集,用于市区典型人群的流动

可以提供东京都会区,而中京都会区似乎正在准备中。

可以在最近的出版物中找到详细信息:

柏山武浩,庞彦波,关本义秀,《开放的PFLOW:城市中典型人群大规模移动的开放数据集的创建和评估》,交通研究C部分:新兴技术(2017年),第85卷,第249–267页。


T-Drive轨迹数据集是最近发现的。它提供:

一周的10,357辆出租车的轨迹。该数据集中的点总数约为1500万,轨迹的总距离达到900万公里。


尽管与人体运动无关,但是Liquid Robotics公司通过PacX挑战提供了有趣的数据集。可下载有关航行于太平洋的四个机器人滑翔机的位置和环境传感器读数的数据。通过WIRED此演讲,在博客上获得有关(非常酷)项目的更多信息。


解决隐私问题的另一种方法是使用动物跟踪数据。我想数据保护在这里将不再是一个问题。作为优势,您仍然可以使用真实的运动数据来测试您的软件/方法。缺点可能是,如果您的应用程序需要“特定于人类的”动作-它们可能不符合您的目的。

查看MovebankDRYAD网站,以检查其某些数据是否适合您的项目。


至于Matthew提到的iPhone数据,您可以看一下众包openpaths项目。也许有一种方法可以通过它们获取一些数据?更新:两个链接现在似乎都死了。


另一个选择是Chris Whong的NYC出租车数据的空间部分。它们仅提供上落地点,但是容量(11 GB!)和上下文信息(票价,乘客等)使它们真正具有吸引力(替代下载,有关数据引起的隐私问题的更多信息)。


UrškaDemšar在她最近发表的关于“根据自愿运动数据和上下文信息分析人类流动性”的论文中的帖子承诺:

还将很快有免费的自愿性GPS轨迹数据集与本文链接。敬请关注。

更多信息

更新:论文提到@ejel提到的CRAWDAD上的数据将可用,但我还没有找到。


另一种选择是自己创建综合数据集。如果您需要一些灵感,请参阅van Dijk J(2018)的最新论文,该文档通过具有多个移动窗口的GPS,数据和计算机,环境和城市系统来识别活动旅行点 (链接)。论文的附录中提供了更多详细信息,而github上提供了代码和示例数据集。


1

Tahina Expedition(Google地球博客)http://www.tahinaexpedition.com/map 去年大部分时间都在航行。

可以处理KML http://maps.google.com/maps/ms?source=embed&hl=zh-CN&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [gps跟踪现在已转换为kml]


@Mapperez-谢谢Mapperez,但是我需要一点点不同。我想要每天,每分钟记录一次陆地上的GPS点。一个有例行程序(有点例行程序)的人-例如起床,上班,在这里度过几个小时,去购物,回家,重复。
Murat

1

人们全天候免费向Google提供这些数据。称为纬度。也许他们会像用户与他们共享的那样慷慨地共享它。


1
我当然希望他们不会。我很确定他们不会被允许以@Murat应用程序所要求的级别发布任何数据。
昏暗
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.