Questions tagged «differential-privacy»

4
《科学》杂志是否认可“分叉路径分析花园”?
自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。 话虽这么说,自适应数据分析是典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。 以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性。 就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。 我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。 我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?

2
“拉普拉斯噪声”是什么意思?
我目前正在使用Laplace机制编写差分隐私算法。 不幸的是,我没有统计学背景,因此我不知道很多术语。因此,现在我对术语“ 拉普拉斯噪声”不休。为了使数据集微分私有,所有论文都只是讨论根据函数的Laplace分布添加Laplace噪声。 k(X)=f(X)+Y(X)k(X)=f(X)+Y(X)k(X) = f(X) + Y(X) (k是微分私有值,f是评估函数返回的值,Y是拉普拉斯噪声) 这是否意味着我根据Wikipedia https://en.wikipedia.org/wiki/Laplace_distribution的功能从Laplace分布中创建随机变量? Y=μ−b sgn(U)ln(1−2|U|)Y=μ−b sgn(U)ln⁡⁡(1−2|U|) Y = μ − b\ \text{sgn}(U) \ln ⁡ ( 1 − 2 | U | ) 更新:我从上面的函数中绘制了多达100个随机变量,但这并没有给我拉普拉斯分布(甚至不接近)。但是我认为它应该为拉普拉斯分布建模。 UPDATE2: 这些是我的定义: (拉普拉斯机制)。给定任何函数f:N|X|→Rkf:N|X|→Rkf:N^{|X|}→R^k,拉普拉斯机制定义为:ML(x,f(⋅),ϵ)=f(x)+(Y1,...,Yk)ML(x,f(·),ϵ)=f(x)+(Y1,...,Yk)M_L(x, f(·),\epsilon)=f(x)+(Y_1,...,Y_k),其中Y是从Lap(∆f / \ epsilon)得出的iid随机变量Lap(Δf/ϵ)Lap(∆f/ϵ)Lap(∆f/\epsilon) 以及: 要生成Y(X),通常的选择是使用均值为零且标度参数为((f)/ε)的拉普拉斯分布
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.