保存,存储和共享机器学习模型的最佳实践是什么?
在Python中,我们通常使用pickle或joblib存储模型的二进制表示形式。在我的情况下,模型可以大到100Mo。此外,除非您设置compress=1
(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre)。
但是,然后,如果您想控制对模型的访问权限,并能够使用来自不同计算机的模型,最好的存储方法是什么?
我有几种选择:
- 将它们存储为文件,然后使用Git LFS将它们放入存储库中
- 将它们作为二进制文件存储在SQL数据库中:
- 例如在Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB中
- 这也是SQL Server团队推荐的方法:
- https://docs.microsoft.com/zh-cn/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model
- https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html
- https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system
- HDFS