数据匿名化软件


13

有谁知道好的数据匿名软件?或者也许是用于R的数据匿名包?显然,不要指望不可破解的匿名化-只是想让它变得困难。


6
您的数据是什么,对匿名数据要做什么?
Peter Smit

Answers:



8

警告:请注意,以防止重新标识(去匿名化)的方式匿名化数据,而又不会损失很多数据价值是非常困难的。在这种情况下,您可以不加考虑就扔软件。保护人们的匿名性需要仔细考虑。例如,请参见本文,以更仔细地说明为什么这样做并非无关紧要。

Netflix的挑战就是一个警示故事的一个例子,在该挑战中,一个看似匿名的数据集实际上已链接回Netflix用户的身份-或发布了匿名的AOL搜索记录,其中许多(研究人员发现)仍然可以与之绑定个人通过更复杂的分析。另一个例子来自马萨诸塞州,在通过删除姓名,地址,SSN等进行匿名化之后,健康保险委员会发布了所有州雇员的数据。但是,一位隐私研究人员发现仍然可以重新识别个人作为演示,展示了如何识别州长的健康记录。她后来举例说,例如,大多数人可以通过其邮政编码(或人口普查区),出生日期和性别来唯一标识。这些都是人们努力使数据匿名化的故事。他们认为自己在匿名化方面做得很好,只是没有意识到这个问题有多棘手。 这些警示性故事应该使您停下来。

出于这些原因,如果您以前在该领域没有经验,那么我不鼓励您尝试自行匿名化数据集。

重要说明:匿名数据所需的技术可能在很大程度上取决于您拥有的数据种类和正在使用的应用程序域。不幸的是,您没有提供此信息。结果,几乎不可能为您提供有关如何匿名化数据集的良好建议。

我认为将这个答案视为无益的做法很诱人,因为与其说“高兴,不要担心,只需将这个神奇的软件扔到您的数据上,您就不必思考”,我是说“等等,这比乍一看要棘手,要小心”。我意识到此消息可能不是很流行,但是我认为这是人们需要听到的消息。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.