作为审稿人,即使期刊没有,我是否可以要求提供数据和代码?


23

由于科学必须具有可复制性,因此根据定义,人们越来越认识到数据和代码是可复制性的重要组成部分,正如耶鲁圆桌会议针对数据和代码共享所讨论的那样。

在审阅不需要数据和代码共享的期刊的稿件时,我可以要求提供数据和代码吗?

  1. 在审查时对我
  2. 出版时公开发表(该杂志支持增刊)

另外,我该如何表达这样的要求?


更新:尽管我对一般情况感兴趣,但此特殊情况包括对所有以前发布的数据进行的荟萃分析,并且代码是SAS中的简单线性模型

边注:如果更多的研究提供原始数据,则进行交叉研究推断的能力(即荟萃分析的目标)将大大增强。

更新2

我要求编辑提供数据和代码以供审核,编辑认为请求合理,并且我在一天之内就收到了所要求的材料(足够但带有隐含的变量名,没有元数据并且几乎没有内联注释)。


3
就个人而言,几乎在任何情况下我都可以使用代码。数据是另一个问题。除非它已经公开可用,否则我可能不会获得与任何人共享的许可。我怀疑这会使数据请求在许多情况下不合理。
Andy W

4
这听起来像是您应该与副编辑或一位编辑讨论的内容。如果他们正在做他们的工作,他们应该能够为您提供指导,并且很可能会作为作者提出此类请求的联系点。
主教

1
在我看来,许多示例和随后的讨论都是基于轶事情况,这些情况可能会根据纪律和所讨论的数据而发生巨大变化。当然,某些情况下散布数据似乎是完全合理的,但这并不一定代表所有情况。这个问题很快就变成了咆哮!
Andy W

1
@Andy关于如何远离蚂蚁的任何建议?例如,应该在OP中做出区分或对答案进行编辑(毕竟是CW)。
日安倍晋三

1
我认为这种形式具有选择偏向 :-)。我们大多数人都在这里,因为我们大多数人都以某种方式支持OP的想法。
suncoolsu 2011年

Answers:


7

就获取数据作为审阅者而言,如果您需要它来正确完成审阅,则您有权使用它。更多的审阅者应要求提供数据并进行评估。许多期刊都有政策,它们可能需要数据和分析代码来进行审核。

对我来说,发布时的可用性尚不清楚。看来您是在说要强制发布将数据公开发布为发布条件的问题。如果还没有日记政策,那将是一个坏主意。您正在使出版物成为不公平的目标。他们提出的期望不是要求,您或编辑者也应该改变游戏规则。

许多由公共资助的研究人员都不为所知,但要求他们将其数据公开。例如,大多数NIH资助都有条款,要求研究人员必须提供其数据。大多数政府资助机构都有数据共享条款,这些条款会迫使研究人员共享他们发现的内容(考虑到很难因此而失去资助,或者也许会失去续约权,也许力量有点强大)。公众为数据付费,因此公众有权使用它-在人类研究的情况下,匿名使用。

一些最昂贵,最敏感的数据(人类FMRI数据)也是一些最常用的公开可用信息。不仅PLoS,而且该领域的主要期刊都需要提交数据并维护一个公共可用的数据库。我认为这对那些出于成本(非常昂贵)和隐私(那些来自小型研究的人为数据,有时可能是非常敏感的独特临床人群)的反对意见引起了很多反对。这些就是使这些数据对公众更有价值的原因。扣留此类数据的研究人员正在对购买该数据的人(每个人)造成损害,并且需要在小型实验室和出版物竞争之外吸取教训,了解他们的职责是什么。

如果研究是私人资助的,真正是私人资助的,那倒霉了。


我同意其中的大部分内容-已经有要求向NIH资助的赠款等中的数据(通常向其他合格的研究人员披露)。但是我认为,将其扩展到特定的出版要求将大大超过审稿人的作用。
Fomite

1
(+1)详尽,明确的答案。要记住的一件事是,该站点具有相当的国际受众。我希望即使没有NIH或其他组织扭转局面,也会有更多的研究人员对他们的研究和数据采取协作的看法。
主教

EpiGrad,如果答案还不清楚,我觉得对出版提出一个特殊的要求,不仅超越了审稿人的范围,也超越了编辑的范围。
约翰,

红衣主教,谢谢你的夸奖。也感谢您的提醒。我确实要记住该站点是国际站点。与NIH一样大,它不在我的国家/地区。;)
约翰

@约翰。是的-我只是在同意您的时候忘了放+1 :)
Fomite

6

分别处理两种情况:

作为审阅者:是的,我认为您有理由要求查看数据或代码。但是,如果我是您,我将准备去查看诸如简化代码或数据子样本之类的内容。人们始终在代码中实施未在本文中进行报告的未来研究,因此您无权使用该代码。由于我主要从事生物医学研究,因此我也准备好应对一些相当严格的数据使用协议。

在期刊中:不。如果研究人员想复制我的结果,他们可以自己找我要代码-这就是为什么我们有相应的作者。对于数据,绝对不可以。我的数据受IRB和保密协议约束-不仅会公开。如果我一个公开的数据集,我可能会模拟具有类似属性的数据集(即R的一个网络软件包中可用的“ Faux-Mesa”网络数据),但作为审阅者,您没有电话要求。如果是整个期刊的要求,那么作者就知道提交时其数据/代码将是公开的,但如果不是,则不会。您的职责是评估论文本身的质量(因此,出于审查目的,我对此表示同意),而不是利用您的能力来对论文的接受/拒绝做出贡献,以推动本质上的哲学/政治观点的发展不在期刊范围内。

充其量,我会在您的评论中注明“我强烈敦促作者在可能的情况下提供其代码和数据”,但我不会说比这更强大的内容,也不会在其中加入正式清单“我认为需要先解决的东西,然后才能看到今天”。


刚刚注意到您的编辑:在这种情况下,就论文而言,答案实际上是一个更好的“否”-假设论文被引用。如果要求的重点是“可重复的研究”,并且数据是公开可找到的,则没有理由要寻求确认结果的研究人员本身无法做到这一点。此外,如果重点实际上是评估科学,而不仅仅是证明您也可以单击“运行”并获得相同的结果,那么您自己完成文人中的搜索和抽象过程就是验证结果的一部分。
Fomite

为了使研究具有可复制性,应提供分析中使用的代码和数据的版本,并且不应期望(或必定是相关的)分析中未使用的代码。
戴维·勒鲍尔

@EpiGrad:在某种程度上,我不太同意这种强烈的否定。基思·巴格利(Keith Baggerly)最近一直在传播这个话题,并进行了一些有趣的观察。例如,参见KA Baggerly和KR Coombes,《从细胞系中产生化学敏感性:法医生物信息学和高通量生物学中的可再现研究》安。应用 统计 ,第3卷,没有。4,第1309-1334页。还有一个arxiv版本
主教

我知道很少有具有IRB和机密性问题的,真正限制了正确匿名数据发布的受资助研究人员。如果您处在这种情况下,这是一种非常罕见的情况。
约翰

@EpiGrad我也质疑强。在荟萃分析中用于从原始数据获取指标的方法通常需要大量假设,这些假设与在单个研究水平上发生的方法和解释差异有关。在这种情况下,代表了200多项研究,因此重建数据集所需的时间令人望而却步-最终将阻碍科学发展的最终目标。
David LeBauer 2011年

5

正如约翰所说,对审阅者而言,数据的可用性应该是显而易见的。仔细的审查应包括复制分析,因此必须访问数据。

关于发布后数据的公开可用性,我想说,应该与该期刊进行一般性的斗争,而不是针对特定的投稿。

从更一般的角度来看,供资机构和IRB越来越意识到,数据共享是研究的科学和道德必要组成部分。通过增加重新分析的可用性(可能产生正确的错误报告的新结果),数据共享增加了研究的潜在利益,从而修改了成本/收益之间的权衡,使研究参与者受益。当然,有必要告知参与者其数据将被共享的可能性,并且也有必要建立保护措施以防止参与者识别身份的风险增加,但是在大多数情况下都可以实现。在我自己的研究中,我向参与者(和我的IRB)保证,(1)数据将以强加密格式存储(随着解密技术的发展而更新),


1

我对此没有任何经验,但是在我看来,您可能可以坚持认为#1作为您自己努力的一部分,以检查他们的结果。不过,我看不出您如何坚持第二。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.