Questions tagged «reproducible-research»

公开提供完整实验说明,完整收集的数据以及所有数据分析脚本的研究实践,以便可以在其他地方复制已发布的结果。

2
我们对“野外” p黑客了解多少?
短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于: 仅分析发现模式的数据的“有趣”子集; 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试; 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验; 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点); 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中; 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。 因此,我们知道可以进行p- hacking。它经常被列为“ p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。 当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法: 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?) 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p ≈ 0.01p ≈ 0.05p≈0.05p \approx 0.05p ≈ 0.01p≈0.01p \approx 0.01 p- hacking的模式在各个学术领域是否有所不同? 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现? 参考文献 负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果。PLoS Biol,13(3),e1002106。

15
使用R的可重复研究的完整实质性示例
问题:是否有任何可以免费在线使用R进行可重复研究的好例子? 理想示例: 具体而言,理想示例将提供: 原始数据(最好是解释数据的元数据), 所有R代码,包括数据导入,处理,分析和输出生成, 调整或将最终输出链接到最终文档的其他方法, 所有格式都易于在读者的计算机上下载和编译。 理想情况下,示例应是期刊文章或论文,其中重点是实际应用的主题,而不是统计教学示例。 感兴趣的原因: 我对期刊文章和论文中的应用主题特别感兴趣,因为在这种情况下,还会出现其他一些问题: 出现与数据清理和处理有关的问题, 出现与元数据管理有关的问题, 期刊和论文通常对表格和图表的外观和格式有风格指导的期望, 许多期刊和论文通常都有广泛的分析,这些分析提出了有关工作流程(即,如何进行序列分析)和处理时间(例如,缓存分析等)的问题。 看到完整的示例,可以为可重复研究的研究人员提供良好的指导材料。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

3
我们如何定义“可重复的研究”?
现在已经提出了几个问题,我一直在想一些事情。整个领域是否朝着着眼于原始数据和相关代码可用性的“可重复性”发展? 总是告诉我,可重复性的核心不一定像我所说的那样具有单击“运行”并获得相同结果的能力。数据和代码方法似乎假定数据是正确的-数据本身没有缺陷(在科学欺诈的情况下,通常证明是错误的)。它还关注目标人群的单个样本,而不是发现在多个独立样本上的可重复性。 那么为什么要强调能够重新运行分析,而不是从头开始重复研究呢? 在下面的评论中提到的文章可在此处获得。

8
如何使人们更好地处理数据?
我的工作场所拥有来自不同学科的员工,因此我们以许多不同的形式生成数据。因此,每个团队都开发了自己的存储数据系统。有些使用Access或SQL数据库。有些团队(令我恐惧的是)几乎完全依赖Excel电子表格。通常,数据格式因项目而异。在某些情况下,称其为“系统”太客气了。 这带来的问题是,我必须编写新代码来清理每个项目的数据,这很昂贵;手动编辑电子表格的人几乎不可能进行数据的可重复性和审计。甚至更糟的是,数据可能会丢失或变得不正确。 我有机会与公司董事会成员讨论这些问题,我需要弄清楚该如何告诉他。我认为我已经说服了他我们有一个问题,正确解决这个问题将使科学更好并节省资金。问题是:我们应该瞄准什么,如何到达那里? 进一步来说: 我们应该如何存储数据,以使我们能够跟踪数据从创建到发布的过程?(数据库存储在中央服务器上吗?) 您如何实现数据库格式的标准化? 有什么好的资源可以教育人们如何护理数据?(通常,职业卫生师和炸药工程师不是数据呆子;因此,非技术性内容优先。)

5
p值本质上是无用的且使用危险吗?
纽约时报的这篇文章“ 赔率,不断更新”引起了我的注意。简而言之,它指出 [贝叶斯统计]已证明在解决复杂问题时特别有用,包​​括像海岸警卫队在2013年使用的搜索来寻找失踪的渔夫约翰·奥尔德里奇(尽管到目前为止,在寻找马来西亚航空370号班机的过程中)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据遍地开花... 在这篇文章中,还对常客的p值提出了一些批评,例如: 如果p值小于5%,则通常认为结果具有“统计学意义”。哥伦比亚大学统计学教授安德鲁·盖尔曼(Andrew Gelman)表示,但是这种传统存在危险。即使科学家总是正确地进行了计算(但他们没有这样做),接受p值为5%的所有内容也意味着20个“具有统计意义”的结果只是随机噪声。 除上述之外,也许最著名的批评p值的论文就是《自然方法》一书,作者是Regina Nuzzo的《科学方法:统计误差》,其中讨论了许多由p值方法引起的科学问题,例如重现性问题, p值骇客等 P值是统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠。……也许最糟糕的谬论是自欺欺人,宾夕法尼亚大学的心理学家乌里·西蒙索恩(Uri Simonsohn)及其同事已经普及了“ P-hacking”一词。它也被称为数据挖掘,侦听,钓鱼,重要性追踪和两次浸渍。Simonsohn说:“ P黑客正在尝试多种方法,直到获得期望的结果为止”,甚至是在不知不觉中。......……“这一发现似乎是通过p-hacking获得的,作者放弃了其中一个条件,以使整体p值小于.05”,而“她是p-hacker,她总是在收集数据时监视数据。” 另一件事是一个有趣的情节从下面这里,有关剧情的评论: 无论您的影响有多小,您都可以始终努力收集数据以超过p <.05的阈值。只要不存在您要研究的影响,p值就可以衡量您为收集数据付出了多少努力。 综上所述,我的问题是: 第二段引文中的安德鲁·盖尔曼的论点到底意味着什么?他为什么将5%的p值解释为“ 20个具有统计学意义的结果中有1个是随机噪声”?我不相信,因为对我而言,p值可用于一项研究的推断。他的观点似乎与多重测试有关。 更新:有关此内容,请查看安德鲁·盖尔曼(Andrew Gelman)的博客:不,我没有这么说!(提供给@ Scortchi,@ whuber)。 CpCpC_p 是否有使用p值进行统计分析的良好实践指导,可以得出更可靠的研究结果? 正如某些统计学家所倡导的那样,贝叶斯建模框架会是更好的方法吗?具体来说,贝叶斯方法是否更有可能解决错误的发现或处理数据问题?由于先验在贝叶斯方法中非常主观,因此我在这里也不确信。是否有任何实践和知名的研究表明贝叶斯方法比常客的p值更好,或者至少在某些特定情况下,这种观点更好? 更新:对于是否存在贝叶斯方法比常客主义的p值方法更可靠的情况,我将特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需结果。有什么建议么? 更新6/9/2015 刚注意到这个消息,并认为将其放在此处进行讨论会很好。 心理学杂志禁止P值 一项有争议的统计测试终于结束了,至少在一本期刊上如此。本月初,《基本与应用社会心理学》(BASP)的编辑宣布该期刊将不再发表包含P值的论文,因为统计数据经常被用来支持低质量的研究。 与最近的论文一起,《自然》杂志关于“ P值”的“善变的P值产生了无法再现的结果”。 更新5/8/2016 早在三月,美国统计协会(ASA)就统计意义和p值发布了声明,“ .... ASA声明旨在将研究引导到'p <0.05后时代'。” 该语句包含6条解决p值滥用的原则: P值可以指示数据与指定的统计模型不兼容的程度。 P值不能衡量所研究假设为真的概率,也不能衡量仅由随机机会产生数据的概率。 科学结论和业务或政策决策不应仅基于p值是否超过特定阈值。 正确的推理需要完整的报告和透明度。 p值或统计显着性不能衡量效果的大小或结果的重要性。 就其本身而言,p值不能很好地证明有关模型或假设的证据。 详细信息: “ ASA关于p值的声明:上下文,过程和目的”。

6
如何提高研究的长期可重复性(尤其是使用R和Sweave)
情境: 为了回应先前有关可重复研究的问题,杰克写道 创建JASA归档文件时发现的一个问题是CRAN软件包的版本和默认值已更改。因此,在该归档文件中,我们还包括了所用软件包的版本。当人们更改其包装时,基于小插图的系统可能会崩溃(不确定如何在《纲要》的包装中包括额外的包装)。 最后,我想知道当R本身改变时该怎么做。例如,是否有生产虚拟机的方法,该虚拟机可以复制用于纸张的整个计算环境,从而使虚拟机不会很大? 题: 有什么好的策略可确保可重现的数据分析在将来(例如发布后的五,十年或二十年)可重现? 具体来说,使用Sweave和R时,有什么好的策略可以最大程度地提高重复性? 这似乎与确保可重现的数据分析项目将在其他人的计算机上运行时使用的默认值,软件包等略有不同的问题有关。

3
谁可以跟随github来学习数据分析的最佳实践?
研究专家的数据分析代码是有帮助的。我最近一直在仔细阅读github,那里有很多人共享数据分析代码。这包括一些R软件包(当然可以直接从CRAN获得),还包括一些可重现的研究示例,尤其是使用R时(请参见github上的R列表)。 谁是可以跟随github来学习数据分析最佳实践的好人? (可选)它们共享哪种代码,为什么有用?

2
创建综合数据集的一些标准做法是什么?
作为上下文:当处理非常大的数据集时,有时会问我们是否可以创建一个综合数据集,以“了解”预测变量与响应变量之间的关系,或预测变量之间的关系。 多年来,我似乎遇到了一次性的综合数据集(看起来像是临时创建的),或者遇到了结构化的数据集,这些数据集特别适合研究人员提出的建模方法。 我相信我正在寻找创建综合数据集的标准方法。尽管引导重采样是创建综合数据集的一种常用方法,但它不满足我们 先验知道结构的条件。此外,与其他交换引导程序样本本质上需要交换数据,而不是数据生成方法。 如果我们可以将参数分布拟合到数据中,或者找到足够接近的参数化模型,那么这就是我们可以生成综合数据集的一个示例。 还有什么其他方法?我对高维数据,稀疏数据和时间序列数据特别感兴趣。对于高维数据,我将寻找可以生成感兴趣的结构(例如协方差结构,线性模型,树等)的方法。对于时间序列数据,来自FFT,AR模型或各种其他过滤或预测模型的分布似乎是一个开始。对于稀疏数据,再现稀疏模式似乎很有用。 我相信这些只是表面上的内容-这些是启发式的,不是正式的做法。是否有参考或资源来生成从业人员应了解的综合数据? 注意1:我意识到这个问题是针对文献的,该文献如何像一个特定的时间序列模型那样生成数据。这里的区别在于实践,特别是为了指示已知结构(我的问题),而不是与现有数据集的相似性/保真度。在我的情况下,不必像已知结构一样具有相似性,尽管相似性比不相似性更受重视。模型显示有希望的奇特的综合数据集比现实的模拟更受青睐。 注2:维基百科关于综合数据的条目指出,鲁宾和费恩伯格等名人已经解决了这个问题,尽管我没有找到最佳实践的参考。知道诸如《应用统计年鉴》(或《 AOS》)或这些或其他期刊的评论工作将使哪些事情通过会很有趣。用简单而异想天开的术语,人们可能会问,“(可以接受)煮熟”和“煮得太熟”之间的界限在哪里存在? 注3:尽管它不会影响问题,但使用场景是对各种大型,高维数据集进行建模,其中研究议程是学习(通过人和机器;-)数据的结构。与单变量,双变量和其他低维方案不同,该结构不容易推断。随着我们对结构的深入了解,能够生成具有相似属性的数据集是很重要的,以便了解建模方法如何与数据交互(例如,检查参数稳定性)。但是,有关低维合成数据的较旧指南可能是一个起点,可以扩展或适用于高维数据集。

4
作为审稿人,即使期刊没有,我是否可以要求提供数据和代码?
由于科学必须具有可复制性,因此根据定义,人们越来越认识到数据和代码是可复制性的重要组成部分,正如耶鲁圆桌会议针对数据和代码共享所讨论的那样。 在审阅不需要数据和代码共享的期刊的稿件时,我可以要求提供数据和代码吗? 在审查时对我 出版时公开发表(该杂志支持增刊) 另外,我该如何表达这样的要求? 更新:尽管我对一般情况感兴趣,但此特殊情况包括对所有以前发布的数据进行的荟萃分析,并且代码是SAS中的简单线性模型 边注:如果更多的研究提供原始数据,则进行交叉研究推断的能力(即荟萃分析的目标)将大大增强。 更新2: 我要求编辑提供数据和代码以供审核,编辑认为请求合理,并且我在一天之内就收到了所要求的材料(足够但带有隐含的变量名,没有元数据并且几乎没有内联注释)。

1
是否已复制使用段落向量进行情感分析的最新技术成果?
Le和Mikolov 在ICML 2014论文“ 句子和文档的分布式表示 ”中给我留下了深刻的印象。他们描述的技术称为“段落向量”,它基于word2vec模型的扩展来学习任意长的段落/文档的无监督表示。该论文报告了使用这种技术进行情感分析的最新性能。 我希望在其他文本分类问题上评估此技术,以替代传统的词袋表示法。但是,我在word2vec Google小组的一个线程中遇到了第二个作者的帖子,这让我停顿了一下: 在夏季,我尝试重现Quoc的结果。我可以使IMDB数据集的错误率达到9.4%-10%左右(取决于文本规范化的程度)。但是,我无法达到Quoc报告的结果(错误7.4%,那是一个很大的差异)。当然,我们还向Quoc询问了代码;他答应出版,但到目前为止没有任何反应。...我开始认为Quoc的结果实际上是不可复制的。 有人成功复制了这些结果吗?

1
如何使用Sweave和xtable创建彩色表?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我正在使用Sweave和xtable生成报告。 我想在桌子上添加一些颜色。但是我还没有找到任何用xtable生成彩色表的方法。 还有其他选择吗?

1
如果研究中验证准确性高而测试准确性低怎么办?
我对机器学习研究中的验证有一个特定的问题。 众所周知,机器学习机制要求研究人员在训练数据上训练他们的模型,通过验证集从候选模型中进行选择,并报告测试集的准确性。在非常严格的研究中,测试集只能使用一次。但是,它永远不可能成为研究方案,因为在发表(甚至提交)论文之前,我们必须提高性能,直到测试准确性优于最新结果为止。 现在出现了问题。假设50%是最先进的结果,而我的模型通常可以达到50--51的精度,平均而言更好。 但是,我的最佳验证准确性(52%)产生了非常低的测试准确性,例如49%。然后,如果我无法进一步提高验证acc,则必须报告49%的总体性能,这对我来说是没有希望的。这确实使我无法研究问题,但是对我的同伴来说并不重要,因为他们没有看到52%的符合率,我认为这是一个离群值。 那么,人们通常在研究中如何做? ps k-fold验证没有帮助,因为相同的情况仍然可能发生。

3
公开数据的托管选项
因此,您已经决定支持可重复研究的想法,并希望在线提供数据供人们查看和使用。问题是,您在哪里托管它? 我的第一个倾向当然是我在大学服务器上拥有的私有Web空间,但是这些事情实际上并没有那么持久-如果我离开,目录在消失之前会保持打开状态很短的时间。保持数据可供人们将来使用和使用的正确设置几乎是不正确的。 您是否使用GitHub或SourceForge之类的东西?还是其他服务? 有问题的数据是一些非常狭narrow的模拟结果的输出-因此,我不一定认为像InfoChimps或其他公共数据存储库之类的地方就是它的正确选择。更少的是“您可以使用此代码学习东西!” 以及更多“您可以复制本文中的图3”。

4
当前辩论对统计意义的影响
在过去的几年中,各种各样的学者提出了一个有害的科学假设检验问题,称为“研究者自由度”,这意味着科学家在分析过程中有很多选择偏向于p值<5%的发现。例如,这些模棱两可的选择包括要包含的情况,被归类为异常的情况,运行大量的模型规范,直到出现某种情况,不发布无效结果,等等。(引发心理学争论的论文在这里,看到一个受欢迎的石板条和后续辩论安德鲁·盖尔曼在这里,和时代杂志还谈到了这个话题在这里。) 首先,一个澄清问题: 《时代》杂志写道, “ 0.8的幂表示经过检验的十个真实假设中,只有两个被排除在外,因为其影响未在数据中得到体现。” 我不确定这是否适合我在教科书中找到的幂函数的定义,这是拒绝空值作为参数的函数的可能性。使用不同的我们具有不同的功能,因此我不太理解上面的引用。θθθ\thetaθθ\theta 其次,一些研究意义: 在我的政治科学/经济学领域,学者只是用尽了所有可用的国家/地区年度数据。因此,我们不应该在这里摆弄样品吗? 是否可以仅通过学科中的其他人将重新测试您的论文并由于没有可靠结果而立即将您击倒这一事实来解决运行多个测试但仅报告一个模型的问题?预见到这一点,我这一领域的学者更有可能包括一robustness check节,他们表明多个模型规范不会改变结果。这够了吗? 安德鲁·盖尔曼(Andrew Gelman)和其他人指出,无论数据如何,总是有可能找到并发布一些并非真正存在的“模式”。但是,考虑到任何经验的“模式”都必须得到理论的支持,并且学科内的竞争理论只会进行辩论/竞赛,以找出哪个阵营能够找到更多的“模式”,因此这不必担心。在各个地方。如果某个模式确实是虚假的,那么当其他样本/设置中没有类似的模式时,后面的理论将很快被推翻。这不是科学的进步吗? 假设当前期刊对无效结果的趋势实际上将会蓬勃发展,是否有办法让我们将所有无效结果和肯定结果汇总在一起,并推断它们都试图检验的理论?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.