Python机器学习/数据科学项目结构


10

我正在寻找有关如何组织Python机器学习项目的信息。对于Python常规项目,有Cookiecutter,对于R ProjectTemplate

这是我当前的文件夹结构,但是我将Jupyter Notebooks与实际的Python代码混合在一起,而且看起来还不太清楚。

.
├── cache
├── data
├── my_module
├── logs
├── notebooks
├── scripts
├── snippets
└── tools

我在scripts文件夹中工作,当前在my_module下的文件中添加所有功能,但这会导致加载数据(相对/绝对路径)时出错以及其他问题。

除了一些kaggle竞赛解决方案和一些笔记本电脑,这些笔记本电脑的所有功能都在该笔记本电脑开始时有所凝结,因此我找不到关于此主题的适当最佳实践或良好示例。


看看有助于(没有亲身经历)。
Emre

Answers:


4

我认为该发展中领域尚无最佳实践,但是,除了cookiecutter之外,SciPy 2016大会的教程中还展示了一些有趣的想法:http : //isaacslavitt.com/2016/07/20/数据科学是软件对话/

就个人而言,除非我有一个很好的区分它们的好方法并且有充分的理由将它们分开,否则我会尽量减少项目中的子文件夹的数量。糟糕的组织几乎与没有组织一样糟糕。我认为最佳实践可能取决于用例-并非每个项目都需要相同数量的样板。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.