4
《科学》杂志是否认可“分叉路径分析花园”?
自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。 话虽这么说,自适应数据分析是典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。 以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性。 就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。 我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。 我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?