《科学》杂志是否认可“分叉路径分析花园”?


29

自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。

话虽这么说,自适应数据分析典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。

以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性

就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。

我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。

我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?


2
那些没有获得《科学》访问权限的人可能希望查阅最近的《科学》新闻文章,以了解如何获得付费论文。
变形虫说莫妮卡(

1
这可能是预印本:arxiv.org/pdf/1411.2664.pdf吗?
蒂姆

1
@Tim:《科学》杂志引用了您发布的预印本。此外,“拉普拉斯噪声加法”部分似乎与已发表文章中的方法非常相似,但不完全相同。
Cliff AB

1
@CliffAB,因此他们可能使用差异性隐私来使它们与众不同;)
蒂姆

4
该主题实际上是上个月在ICML上的教程。谷歌的一位同事撰写了“严格的数据挖掘:自适应数据分析的理论和工具”。icml.cc/2016/?page_id=97
horaceT '16

Answers:


7

作者博客上发表一篇高水平的文章。

引用该帖子开头的内容:

为了减少变量的数量并简化我们的任务,我们首先选择一些有前途的变量,例如与响应变量(收缩压)呈正相关的变量。然后,我们对所选变量拟合线性回归模型。为了衡量模型拟合的优劣,我们从喜欢的统计学教科书中提出了标准的F检验,并报告了所得的p值。

Freedman表明,所报告的p值极具误导性-即使数据是完全随机的,并且响应变量和数据点之间没有任何关联,我们也可能会观察到明显的p值!偏差源自以下事实:我们根据数据自适应地选择了变量的子集,但我们从不考虑这一事实。我们从中选择了很多可能的变量子集。我们通过偷看数据来选择一个测试而不是另一个测试这一事实,就产生了选择偏见,使F检验的假设无效。

弗里德曼的悖论有一个重要的教训。标准程序的重要性级别无法捕获人们可以选择进行或省略的大量分析。因此,适应性是为什么研究发现经常是虚假的主要解释之一,正如Gelman和Loken所论证的那样,他们恰当地将适应性称为“分叉的花园”。

我完全看不出他们的技术如何解决这个问题。因此,在回答您的问题时,我相信他们不会针对叉路花园,从这种意义上说,他们的技术会使人们陷入一种虚假的安全感。与说“我使用交叉验证”没什么不同,这使许多使用非嵌套简历的人误以为是安全感。

在我看来,博客的大部分帖子都指向他们的技术,以更好地回答如何阻止Kaggle风格的比赛的参与者攀登测试集的梯度。这很有用,但不能直接解决派生路径。感觉就像Wolfram和Google的New Science一样,大量数据将被接管。那种叙事有好有坏,我一直对自动魔术持怀疑态度。


3

我敢肯定,我在这里过分简化了这种差异化隐私技术,但是从总体上讲,这种想法是有意义的。

当您得到一种算法来得出良好的结果时(哇,我的测试集的准确度确实得到了提高),您不想立即得出结论。仅当改进明显大于以前的算法时,您才想接受它。这就是增加噪音的原因。

编辑:此博客具有很好的解释和R代码,以演示噪声加法器的有效性, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


但这并不是说“我将只接受估计的效果 ”的改进。这不会阻止过度拟合(尽管会略微减弱)。有趣的是,在他们自己的图中,您可以看到过度拟合的证据(系统地保留数据的报告错误率比新鲜数据要低)。>τ
Cliff AB

1
@CliffAB我有种na恼的感觉,为什么这比简单的阈值更好。但是他们有证明!
horaceT

...除了他们自己的例子与他们关于防止过度拟合的主张不一致之外,并与我期望“我将仅接受估计的效果 ” 得出的结果一致。>τ
悬崖AB

@CliffAB您能详细说明吗?哪里?That'a一个有趣的可能性....
horaceT

使用幻灯片72和73上的先前链接(icml.cc/2016/?page_id=97)中的幻灯片,即使使用“ Thresholdout”方法,其保持准确性也比每次模拟时的新数据都高,尽管它比“标准保留”(实际上是“验证数据集的标准滥用”,而不是实际有效的统计程序)做得更好。仅供参考,该图在幻灯片上显示为与《科学》论文相同(以防万一您无法访问)。
悬崖AB

3

声称增加噪音有助于防止过度拟合确实确实在这里积水,因为他们的实际所作所为限制了保持物的重复使用方式。他们的方法实际上有两件事情:它限制了可对保留问题提出的问题数量,以及每个答案揭示有关保留数据的数量。

理解基准是有帮助的:一方面,您可以坚持认为保留仅使用一次。那有明显的缺点。另一方面,如果您希望能够使用次保留,则可以将其切成不连贯的片段,然后每个片段使用一次。该方法的问题在于它会损失很多功率(如果开始时您的保留样本中有数据点,那么您现在仅获得样本的统计功效)。k n n / kkknn/k

Dwork等人的论文提供了一种方法,即使有对抗性提出的问题,您也可以为您提出的问题中的每一个有效样本大小约为。此外,如果问题“不太讨厌”(在某种意义上很难确定,因此暂时忽略它们),他们可以做得更好。 ķn/kk

他们方法的核心是算法稳定性和过度拟合之间的关系,这种关系可以追溯到1970年代后期(Devroye和Wagner 1978)。大概说

“让是一个算法,需要的数据集作为输入,并输出一个谓语的描述,如果是‘稳定的’和是从总体中抽取IID,然后进行实证频率中的大约与总体中的频率相同。”X q = A X A X P q x q PAXq=A(X)AXPqxqP

Dwork等。建议使用一种稳定的概念来控制答案的分布随数据集的变化而变化(称为差异性隐私)。对于任何函数,它具有有用的属性,如果是差分私有的,则也是私有的。换句话说,要进行稳定性分析,谓词不必是的输出-从的输出派生的任何谓词也将享受相同类型的保证。f A f q A AA()f(A())fqAA

现在有很多论文分析了不同的噪声添加程序如何控制过拟合。一种相对易读的是Russo和Zou(https://arxiv.org/abs/1511.05219)。有关Dwork等人的初始工作的一些最新后续论文。可能对您有所帮助。(免责声明:关于该主题,我有两篇论文,最近的一篇解释了与自适应假设检验的联系:https//arxiv.org/abs/1604.03924。)

希望对大家有帮助。


0

我反对你的第二句话。即使在您试图确认已有的科学假设的情况下,也应该事先确定一个完整的数据分析计划的想法是不合理的。相反,任何体面的数据分析都需要一定注意已采集的实际数据。否则相信的研究人员通常是认为重要性测试是数据分析的开始和结束,而对于描述性统计,绘图,估计,预测,模型选择等几乎没有作用。在这种情况下,预先确定分析计划更有意义,因为p的常规方法计算值需要在查看任何数据之前确定样本量和要进行的测试。此要求使分析人员受了束缚,因此是不使用重要性检验的许多充分理由之一。

您可能会反对让分析师在看到数据后选择要做什么,从而导致过拟合。可以,但是好的分析人员将显示他们进行的所有分析,明确说明数据中的哪些信息用于做出分析决策,并适当使用诸如交叉验证之类的方法。例如,通常可以根据获得的值分布对变量进行重新编码,但是对于某些分析,从100个观察变量中选择3个预测变量与因变量具有最接近的关联关系,这意味着关联关系的估计将是肯定的偏向于通过均值回归原理。如果要在预测性上下文中进行变量选择,则需要在交叉验证折叠内选择变量,或仅使用训练数据。


2
我相信您提出的许多建议都适合探索性数据分析(EDA)领域,为此我认可了自适应数据分析方法。我还认为EDA被低估了,应该给予更多的赞誉。但是所有这些都与眼前的问题正交,即“这些作者是否真的允许我们以统计有效的方法重复使用验证数据进行模型选择?” 您的最后一句话表明,您和我一样,对这些发现持怀疑态度。
悬崖AB

我认为估算本身并不是探索性的,不。如果您有一个科学假设说鳄鱼的最大长度必须为12英尺,而您尝试估计鳄鱼的最大长度以进行检查,则您正在进行验证性分析。
Kodiologist '16

2
+1,尽管已有3票赞成票。我确实同意这个答案的要点(您的第二句话),尽管我完全知道这是有争议的。总的来说,我认为探索性分析与确认性分析之间的差异被高估了。现实生活中的分析通常介于两者之间。就是说,我认为您没有回答(甚至试图回答)关于Dwork等人的OP问题。纸。
变形虫说恢复莫妮卡

@amoeba“我不认为您回答(甚至试图回答)关于Dwork等论文的OP问题” —的确如此,尽管这似乎仍然值得一提,因为它使人们似乎怀疑是什么。问题的前提。
Kodiologist

2
+1 @amoeba的评论。这本来可以很好地回答这个问题,但不是答案。
S. Kolassa-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.