使用R的可重复研究的完整实质性示例


71

问题:是否有任何可以免费在线使用R进行可重复研究的好例子?

理想示例: 具体而言,理想示例将提供:

  • 原始数据(最好是解释数据的元数据),
  • 所有R代码,包括数据导入,处理,分析和输出生成,
  • 调整或将最终输出链接到最终文档的其他方法,
  • 所有格式都易于在读者的计算机上下载和编译。

理想情况下,示例应是期刊文章或论文,其中重点是实际应用的主题,而不是统计教学示例。

感兴趣的原因: 我对期刊文章和论文中的应用主题特别感兴趣,因为在这种情况下,还会出现其他一些问题:

  • 出现与数据清理和处理有关的问题,
  • 出现与元数据管理有关的问题,
  • 期刊和论文通常对表格和图表的外观和格式有风格指导的期望,
  • 许多期刊和论文通常都有广泛的分析,这些分析提出了有关工作流程(即,如何进行序列分析)和处理时间(例如,缓存分析等)的问题。

看到完整的示例,可以为可重复研究的研究人员提供良好的指导材料。

Answers:



11

《生物统计学》杂志设有可重复性的副编辑,其所有文章均标有:

可重复的研究

我们的可重复研究政策是:如果可以免费获得期刊上的论文,则将其标记为风筝。如果可以免费获得其所依据的数据,则为C;如果可以自由获得作者的代码,则为C;如果可以同时获得数据和代码,则为R。再现性助理编辑器可以使用这些来再现论文中的结果。数据和代码作为补充材料以电子形式发布在该杂志的网站上。

http://biostatistics.oxfordjournals.org/

那是一个多么好的主意?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract在用于分析的补充资料中随附了R包-尚未亲自尝试过。另外,无法找到指定开放度等级的位置。正在通过电子邮件向副编辑发送一些问题...

[编辑]

副主编罗杰·彭(Roger Peng)告诉我,如果不获取PDF,可能无法找到可复制的论文。他向我指出了这个带有可重复性的大“ R”(并不意味着像电影一样R级):

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

当然期刊本身不是免费的...#失败

巴里


1
看到期刊优先考虑可重复性真是太好了。您是否看到过标记为R的文章的良好示例?
Jeromy Anglim 2011年

1
他们没有优先考虑发布它,我想他们只是想突出显示它。我将用一个示例来编辑答案。
Spacedman 2011年


10

我的研究论文页面上有一些这样的例子。(不允许我以新成员的身份发布多个超链接。因此,我只介绍该站点上的论文。)

(1)“在随机实验中制作效果清单”使用R的小插图系统。

(2)“将效果归因于集群随机参加的投票活动”是一篇更复杂的论文,涉及一些耗时的模拟。我们使用了一个基于Makefile的系统并将其发布到Dataverse

(3)“ EDA for HLM”是我最早的尝试。在这里,我只是将数据和关联的Sweave文件放在压缩包中。

创建JASA归档文件时发现的一个问题是CRAN软件包的版本和默认值已更改。因此,在该归档文件中,我们还包括了所用软件包的版本。当人们改变他们的包装时,基于小插图的系统可能会崩溃(不确定如何在《纲要》的包装中包括额外的包装)。

最后,我想知道当R本身改变时该怎么做。例如,是否有生产虚拟机的方法,该虚拟机可复制用于纸张的整个计算环境,从而使虚拟机不会很大?

无论如何,我希望这些例子能对您有所帮助。至少他们展示了我在这方面的一些实验。

(以下是一些纯文本超链接。)

  [2]:http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]:http://hdl.handle.net/1902.1/12174
  [4]:http://hdl.handle.net/1902.1/13376

您提出了一些有趣的问题。我已经发布一个单独的问题引用您:stats.stackexchange.com/questions/4466/...
杰罗米Anglim



7

Charles Geyer 在Sweave上的页面上有一个论文示例,它可以满足您的一些要求(原始数据仅来自R包,但可以使用R / sweave代码和最终PDF):

在尹菊成论文中有关该理论的论文《缺失数据模型的蒙特卡罗似然推断》(预印本)中包含了计算示例。本文中的每个数字和每个情节都是从Sweave完成的“补充材料”文档中提取的(我必须承认,是剪切粘贴)。

源文件链接在“论文补充材料”部分下。)

我知道我以前至少浏览过一个R示例,浏览过ReproducibleResearch.net资料页面,但不幸的是没有将其添加为书签。


5

西蒙·杰克曼(Simon Jackman)有一个分析调查结果的特别有用的例子:“美国人和澳大利亚人在9/11之后的10年”。它具有集成表格和图形的多个示例。

他通过此博客文章制作了Sweave文档PDF报告

尽管未提供原始数据(据我所知),所以无法运行实际的Sweave示例,但我认为可以通过研究Sweave代码来学到很多。



4

另请参阅Journal of Statistics Software(统计软件杂志);他们鼓励在Sweave中制作论文。


不,不是正式的-鼓励提交LaTeX,但如果您查看说明页面,则其中不包含Sweave一词。作者确实使用它和/或将R代码随纸一起提供,但是对我来说,这与Shane关于软件包小插图的观点相呼应。
德克·埃德比布特

好的,仍然大多数提交者都使用它(日记样式也包括Swave.sty)。主要问题是没有发表Rnws,但Sweave制作的论文仍带有Stangle输出。

4

我过去曾发现过不错的作品,一旦我将其挖掘出来便会发布,但有一些快速的一般建议:

  1. 通过使用关键字和ext:rnw(将搜索带有sweave扩展名的文件)搜索google,您也许可以找到一些有趣的示例。这是一个示例搜索。这是我搜索到的第三个结果:http : //www.ne.su.se/paper/araietal_source.Rnw。这是我搜索到的另一个示例:http : //www.stat.umn.edu/geyer/gdor/
  2. 许多R软件包都有有趣的小插图,这些小插图本质上等同于同一件事。例如:https//r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

罗伯特·金特曼(Robert Gentleman)撰写了一篇名为“可再生研究:生物信息学案例研究”的论文。

它实现了简短的分析作为R包并使用了Sweave。它还将更广泛地讨论Sweave的用法。

有关使用的所有文件和文件夹的存档文件,请参见文章页面的“相关文件”部分。

参考:

  • Gentleman,Robert(2005),“可再生性研究:生物信息学案例研究”,遗传学和分子生物学中的统计应用:第1卷。4:伊斯 1,第2条。
  • DOI:10.2202 / 1544-6115.1034
  • 可在以下网址获得:http : //www.bepress.com/sagmb/vol4/iss1/art2


3

寻找示例和实践是学习的好方法,但是我只想提及可再现性不仅具有技术/脚本重播方面,而且还具有代码风格和结构方面,可最大程度地减少核心功能中的副作用等。我个人发现,钱伯斯的著作《数据分析软件》使您可以更深入地了解有助于避免R代码级可靠性和可再现性问题的技术。


2

如果您仍然需要一个很好的完全可再生分析实例以及一个PAPER实例,请使用此repo

@jscamac通过使他的分析可再现而出色地完成了工作,我亲自进行了验证。

您可以学习如何使用R特定功能(例如包装)remake以确保可重复性。

注意/计算大约需要一个小时。

全部编写脚本,最后生成带有数字的LaTeX论文。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.