我认为,经常有一种探索性分析的感觉,就是觉得自己掉进了兔子洞,这是由于看不到您要问的实质性问题。我偶尔自己做,然后要提醒自己我的目标是什么。例如,我是要建立一个特定的模型,还是评估现有模型的适当性?我是否在寻找数据问题的证据(即法医数据分析)?或者,这是在分析的早期阶段,在继续开发正式模型之前,我正在非正式地调查特定问题(例如,两个变量之间是否存在关系?)?总而言之,如果您发现自己想出图表和表格,却无法清楚说明您的近期目标或该图表/表格为何相关,那么您就知道自己
我尝试像编写程序一样进行探索性数据分析,无论是编写程序还是编写文章。无论哪种情况,我都不会不先概述一下。当然,该轮廓可以更改(并且经常会更改),但是在没有任何轮廓的情况下开始书写是没有效率的,并且通常会产生较差的最终结果。
在WRT组织中,每个分析师都必须找到适合他或她的工作流程-这样做比IMO严格遵循他人的工作流程更为重要(尽管从他人的工作中汲取灵感总是很有帮助的)。如果您以编程方式工作(即,编写可运行以生成/重新生成一组结果的代码)并将工作检入git,那么您在这方面已经领先许多。我怀疑您可能只需要花一些时间来组织代码,为此,我建议您遵循一下大纲。例如,使您的分析文件相对简短且有针对性,以便每个文件都能回答一个特定问题(例如,特定回归模型的诊断图)。根据项目的规模和复杂性,将它们组织成一两个级别的子目录。这样,项目就可以自我记录;从理论上讲,目录,子目录和文件的列表视图(以及每个文件顶部的注释)应该可以重现您的轮廓。
当然,在一个大型项目中,您可能还具有执行数据清理和管理的代码,为估计某种类型的模型而编写的代码或所编写的其他实用程序,这些都不适合实质性内容。概述以便进行数据分析,因此应将它们组织在项目文件夹的不同部分中。
更新:发布此内容后,我意识到我没有直接解决您有关“死胡同”的问题。如果您真的确定一整套分析没有价值,那么,如果您使用的是git,则始终可以使用提交消息删除相应的文件,例如“放弃此分析行,因为它没有富有成效的。” 与将您写的内容弄皱然后扔到垃圾桶中不同,如果需要,您始终可以返回到后来所做的事情。
但是,我认为您会发现,如果从经过深思熟虑的大纲开始,您的所谓死胡同就会更少。相反,如果您花时间研究一个有价值且相关的问题-即使这会导致无效的发现或未如您预期的那样结果-您可能仍想保留所做的工作和结果的记录(在最小值,这样您就不会再犯此错误)。只需将它们移到轮廓的底部即可,就像“附录”一样。