由于有许多工具可用于数据科学任务,因此安装所有组件并构建完善的系统非常麻烦。
是否有安装了Python,R和其他开源数据科学工具的Linux / Mac OS映像,可供人们立即使用?安装了最新版本的Python,R(包括IDE)和其他开源数据可视化工具的Ubuntu或轻量级操作系统将是理想的选择。我在Google上进行的快速搜索还没有找到。
请让我知道是否有任何东西或者您是否有人为自己创建了一个?我认为某些大学可能拥有自己的VM映像。请分享这样的链接。
由于有许多工具可用于数据科学任务,因此安装所有组件并构建完善的系统非常麻烦。
是否有安装了Python,R和其他开源数据科学工具的Linux / Mac OS映像,可供人们立即使用?安装了最新版本的Python,R(包括IDE)和其他开源数据可视化工具的Ubuntu或轻量级操作系统将是理想的选择。我在Google上进行的快速搜索还没有找到。
请让我知道是否有任何东西或者您是否有人为自己创建了一个?我认为某些大学可能拥有自己的VM映像。请分享这样的链接。
Answers:
最近还有另一种流行的选择:docker(https://www.docker.com)。Docker是一个容器,可让您非常轻松快捷地创建/维护工作环境。
希望对您有所帮助。
如果您正在寻找预装了一系列工具的VM,请尝试使用Data Science Toolbox。
docker-machine regenerate-certs
我终于能够使docker在我的Windows 7计算机上工作,我希望这会有所帮助:)
尽管Docker映像现在越来越流行,但我个人发现Docker技术并不友好,即使对于高级用户也是如此。如果您可以使用非本地 VM映像并且可以使用Amazon Web Services(AWS)EC2,请考虑由Louis Aslett预先构建的针对R的数据科学项目映像。映像包含Ubuntu LTS,R和RStudio Server的最新版本(如果不是最新版本)。您可以在此处访问它们。
除了上面列出的主要组件之外,这些图像还包含许多内置的有用数据科学工具。例如,图像支持LaTeX,ODBC,OpenGL,Git,优化的数字库等。
您是否尝试过Cloudera的QuickStart VM?
今天,我使用了来自https://github.com/sequenceiq/docker-spark的此存储库,并使用docker构建它。它是基于同一所有者的hadoop映像构建的docker映像。如果您使用spark,它有一个名为pyspark的python API http://spark.apache.org/docs/latest/api/python/