您会认为在线地理编码侵犯了隐私权？

21

假设我有一些参加某项研究的个人地址（最有可能-与健康相关，其中隐私和道德考虑始终是重要问题）。

如今，像Google或Yahoo这样的提供商在位置准确性方面提供了不错的结果。

北美中央癌症登记机构协会（NAACCR）在其“ 地理编码最佳做法：八种常用地理编码系统的回顾 ”和“ 地理编码最佳做法指南 ”指南中列出了此类选项。

例如，Cinnamon和Schuurman（2010）使用BatchGeocode服务作为其工具的一部分，以调查资源贫乏地区的伤害情况。

您是否认为使用在线服务（例如Google Maps或OpenStreetMap）对此类地址进行地理编码是否违反隐私规定？

PS1可能相关的问题。

PS2最近在《流行病学》（该领域领先的同行评审期刊之一）上发表了一篇短文详细介绍了如何使用Google Maps＆Places API进行地理编码的说明。有趣的是，没有提到关于安全/隐私的一句话。

geocoding security

— 3转
source

社区Wiki范围的问题？

— 艺术品21年

11

这里肯定有隐私隐患-特别是如果您正在处理少量数据。任何试图挖掘数据流的人都可以假设同一批次中的所有请求都有共同点-即使没有通过有线方式披露医疗状况或个人信息。

更好的技术是批量处理大量无关的数据/患者，以进行批量地理编码。

例如，将您需要地理编码的数据与其他研究人员结合在一起，越不相关的问题就越好。随机化请求的顺序。每天一次通过该队列进行批处理，一次全部完成。

现在，即使攻击者能够听到地理编码请求，也很难挖掘数据。

— 拉德文
source

有趣！是否有任何工具/平台可以促进这一过程？

— Nicolas Raoul

8

在安全服务器上使用加密文件对本地进行地理编码绝对是隐私的黄金标准。如果需要使用远程API进行地理编码，那么使用Tor将是下一件最好的事情。

Tor通过绕开由世界各地志愿者运营的分布式中继网络的通信来保护您的通信：它可以防止...您访问的站点了解您的地理位置。

除了注入随机地址（如此处其他人所建议的那样）并使用ssl（https）加密到其端点的通信（确保您也在执行此操作）之外，我想不到一种比通过进行远程地理编码的更安全的方法Tor项目。无论您使用的是哪种地理编码服务，都将永远无法识别请求的最终来源，并且使用https也不会。注意：请勿使用需要api键的地理编码服务，否则您将不再是匿名的。（Google不再需要api密钥）。

有关使用Tor的更多详细信息，请参见此处的相关问题解答。

— Victor Van Hee
source

谢谢，我还没有考虑过Tor，但这似乎是个好主意。

— radek 2011年

即使使用Tor，地理编码服务器仍会收到您的信息，这是对隐私的根本侵犯。您不能信任地理编码服务器。

— Nicolas Raoul 2014年

8

自从我在一家名为SmartyStreets的地址验证公司工作以来，这是一个好问题。

首先，邮政地址代表地图上的单个可定位点。地址本身是良性的，因为它没有任何其他信息。在地图上画点不会做任何事情。只有当您开始将CONTEXT分配给该点（地址）时，它才开始具有某种含义。

考虑到这一点，邮政地址可以代表个人，组织，建筑物，汽车等。一旦开始收集多个邮政地址，就可以增加可以从该分组中获得的上下文。可以确定相似性以查看地址的共同点。尽管如此，仅在相似区域中的一组地址并不能表示很多上下文。我可以看一下Google地图，并查看特定区域内的所有房屋。除非我未经授权访问特权信息，否则这不是侵犯隐私。

为了实际放弃任何类型的私有数据，必须组合其他上下文。例如，提交给在线服务以进行地址验证和/或地理编码的一组邮政地址不会泄露信息，除非您知道谁提交了该列表进行处理。一旦知道列表所有者，就可以对列表的预期用途做出某些推断。知道列表所有者和预期用途之类的其他上下文，当然可以视为特权信息，并且可能是侵犯隐私的根源。

可以将处理“内部”进行，这样就不涉及外部数据服务。当然，它不包括对特权信息的任何未经授权的访问。地址验证和地址编码不是初学者的任务，并且当然需要高级技能（即随着时间的流逝而积累的经验），以便处理非常大的列表而不消耗过多的时间和资源。因此，将其引入内部肯定是一种选择，但是每个拥有敏感地址信息的公司是否都有资源在内部进行自己的“安全”地址处理（包括地理编码）？不。（尽管这肯定意味着本网站读者的工作安全。）

有一些方法可以维护必要的隐私并仍然使用在线服务。一种方法是创建一个帐户，测试并弄清所有内容，然后使用一个临时电子邮件地址设置一个新帐户，该帐户具有与信用卡相关联的不相关账单地址，该地址无法追溯到您。从理论上讲，处理此帐户上的地址不会丢失任何有价值的上下文，因此将维护列表中个人的隐私。（这开始听起来像电影《国家大敌》。

如果这听起来复杂且不必要，我同意。一种更简单的方法是利用使用HTTPS和POST并且不存储或记录您处理的任何数据的API。使用HTTPS意味着唯一的记录将是时间戳记以及您从中调用的IP地址。底层的URL是未知的。当然，您使用的帐户会直接返回到您，但这不是问题，因为使用POST请求允许您附加有效负载（在这种情况下为一批地址），并且不记录有效负载的内容。因此，您提交的地址不在任何服务器日志上。而且，它们在每个进程之间的内存都被清除了，这意味着这些地址不会被存储或记录，并且它们的返回是通过安全连接完成的。

13Mar2012 06:31（-6）IP：12.134.223.12 UserID：875564-POST QTY：3439942-[已处理]

查看日志的任何人都只会看到您处理了一些地址，而他们却不知道处理了哪些地址。这甚至可以满足最严格的隐私政策要求。对我而言，指出这种类型的服务可用（并且非常快）而不提及在何处找到它是没有意义的。它已经内置在SmartyStreets的LiveAddress API服务中。其他服务（例如Cdyne，QAS和ServiceObjects）也可能提供类似的服务，但我还没有听说过。

— 杰弗里
source

感谢您提供详细信息。HTTPS绝对听起来像是一个合理的想法。我认为SmartyStreets仅限于美国吗？

— radek

是的，SmartyStreets地址验证和地理编码仅限于美国邮政服务地址。

— Jeffrey

5

可能您可以创建一个ID，拆分表格。删除个人身份信息。然后在对地址进行地理编码后重新加入该表。

按照（联合PCness）的精神，我想您可以证明，一旦在某处的服务器上运行数据，便没有维护监护链。

如果您想遵循，我确实找到了很多关于该主题的文章。

如果执行的是法律法规，则云计算可能会完全被政府服务拒之门外。

— Brad Nesom
source

5

不，您可以离线地理编码。如果您使用的是在线批量地理编码器，那么如何将地址转换为地理坐标会成为隐私问题？如果每个人的名字都被包括并公开，那就更成问题了。正如Brad提到的那样，ID带有单独的地址，并在地址经过地址解析后重新匹配。标准做法。

— Mapperz
source

5

我同意您可以离线对地址进行地理编码，而不必透露任何个人信息。但我不同意您的建议，即仅将名称和ID视为应保密的信息。如果您公开一个人的家庭住址，即使没有名字，也就说明了他们的身份。考虑考虑将带有点的地图发布到高度尴尬的传染病患者的房屋上。

— DavidF '12

2

正如Mapperz所说，只要您发送的信息仅限于地址，就不会有问题。发送的信息中请勿包含“ HECD”或任何其他敏感信息。

— jvangeld 2010年

1

@DavidF每个地址都有地理坐标-地理编码的自动化程度为99.9％[计算]，不会丢失任何隐私。如果您不喜欢在线，请不要将其放在那里，请使用离线版本。

— Mapperz

2

@jvangeld我仍然认为，当第三方可以结合提交地理编码请求的组织的身份和地址时，在线情况下隐私可能会受到侵犯。如果吸血鬼治疗人民阵线提交了其中有100个地址的批地址地理编码，您是否认为第三方可以合理地假设这100个房屋中有人试图治愈其“另类生活方式”？显然，这是一个很学术的论点，但是如果您真的想保护隐私和匿名性，我认为这是相关的。

— DavidF 2010年

1

@DavidF的观点非常重要：家庭住址被认为是非常敏感的，并可能导致研究参与者的披露。如果研究吸血鬼的机构的IP地址中有1000个请求，则可以简单地假设它们具有潜在的1000个吸血鬼的地址。我的问题是，在这种情况下可以将在线地理编码服务视为“安全方”吗？可以指控您与未经学习的未经授权的一方共享数据吗？一方认为，通过地理编码过程可以访问数据吗？

— radek 2010年

4

地理编码风险低 今年年初，我们与一些医院合作，提出了这个问题。地理编码服务本身并不是一个大问题，因为我们从数据中去除了ID和地址，使用的安全传输（https）和我们内部的地理编码器TOS指定的足以满足其标准的隐私保护。

匿名显示位置更加困难 这个技巧是在保持匿名的同时显示稀疏数据的地图。客户要求的第一种选择是在每个点上添加一个随机的“软糖”，以便掩盖实际的房屋位置。这种方法的问题在于所需软糖的大小非常大（1/2英里或更大）（如果有人住在农场，情况如何），并且地图用户倾向于将测点位置视为准确。我们决定汇总显示足够匿名的点，同时仍然保留有用的地图。我们从事过的其他行业的规范似乎是，汇总单位必须至少具有7到10条记录。

— 格伦
source

2

我想您是对其进行地理编码，并且不将结果公开？如果是这样，那么云将如何知道该数据代表什么？

据推测，您还可以使用随机数据来混淆地理编码的任何数据，从而隐藏可能存在的任何固有模式。

— q
source

正确的一点是要获取给定数据集的地理坐标集。所有其余的分析将处于脱机状态，任何进一步发布的内容都将永远不会利用个人级别的信息。我喜欢混淆数据集的想法！

— radek 2010年

2

自问这个问题以来，我不知道这是否是新的，但是如果有人想知道google maps api v3是否可以使用SSL（https）。此外，《 NAACCR最佳做法指南》的隐私部分也讨论了这些问题。

— 史考特
source

2

在奥地利，这绝对是一个隐私问题。

首先：健康数据被归类为敏感数据，毫无疑问，未经与该数据集有关的人的明确同意，不得将其交给任何第三方。

即使是匿名的：也可以对该健康数据进行地理编码，但也可以对公开可用的名称至地址寄存器（电话簿）进行地理编码，并将健康数据连接到居住在那里的人，因此地址也被归类为个人数据。

结果是，在未明确询问参与者的情况下，不允许您通过将数据集发送给第三方来对该数据集进行地理编码。

— JürgenZornig
source

1

您需要确切的地理编码或一般区域吗？您也许可以只使用邮政编码或部分邮政编码f

— 用户名
source

@ user1466：确切的地址解析绝对是这里的首选。

— radek 2010年

1

我在地址解析公司（YAddress.net）工作，我们有大量对隐私要求严格的客户-金融业，医疗保健业，法律等。

我们通过两种方式解决他们的隐私问题：

通过SSL加密连接进行在线数据处理（防止传输过程中的数据监听），以及我们这边的隐私协议。对于某些客户来说这足够了，但对所有客户来说还不够。
为了获得最大的私密性，提供了一种现场软件部署选项，其中地理编码完全在客户的房屋内进行，并且没有数据通过Internet传输。

正如其他评论者正确指出的那样，邮政地址本身就是公共信息，没有任何上下文数据（例如客户姓名，电话号码等），并不表示任何披露。但是，现实生活中的企业在现实生活中的法律环境中运作，在这种情况下，这种推理可能会或可能不会出庭。如果迫切需要保护隐私，那么现场解决方案的额外成本可能是值得的，这样可以避免日后可能发生法律纠纷的风险。

— 迈克尔·迪奥敏
source