数据科学项目的VM映像

24

由于有许多工具可用于数据科学任务，因此安装所有组件并构建完善的系统非常麻烦。

是否有安装了Python，R和其他开源数据科学工具的Linux / Mac OS映像，可供人们立即使用？安装了最新版本的Python，R（包括IDE）和其他开源数据可视化工具的Ubuntu或轻量级操作系统将是理想的选择。我在Google上进行的快速搜索还没有找到。

请让我知道是否有任何东西或者您是否有人为自己创建了一个？我认为某些大学可能拥有自己的VM映像。请分享这样的链接。

python r tools

— 让·沃达
source

尽管这个问题可以看作是边界问题，但我还是以某种方式发现它对网站恕我直言是一个好问题。

— 肖恩·欧文

3

：除了真棒意见，有一个（有点以上）的博客文章比较了几种不同的解决方案jeroenjanssens.com/2013/12/07/...

— LauriK

13

最近还有另一种流行的选择：docker（https://www.docker.com）。Docker是一个容器，可让您非常轻松快捷地创建/维护工作环境。

在python中安装用于数据科学的基本工具
- https://registry.hub.docker.com/u/ceshine/python-datascience/
使用R语言进行数据科学
- https://github.com/rocker-org/rocker

希望对您有所帮助。

— 狂热者
source

12

如果您正在寻找预装了一系列工具的VM，请尝试使用Data Science Toolbox。

— 肖恩·欧文（Sean Owen）
source

有趣的项目（+1）。谢谢你的分享！使用它可能比弄清楚为什么Docker不想在我的Win 7笔记本电脑上工作更容易（见上文）。但是，考虑到最新趋势，学习Docker可能仍然是一个好主意。

— Aleksandr Blekh

很好的信息。与vm工具相比，需要一些时间来了解docker的运行方式。如果您已经熟悉vm，则最好使用此工具箱。谢谢你的分享。

— faniaia 2015年

谢谢你的分享。这绝对是有趣的。但是我看不到没有图形界面的人怎么使用它。我需要R-studio和用于Python的PyCharm。（那里有iPython笔记本）。我需要花一点时间来完全理解它。

— JeanVuda 2015年

1

@AleksandrBlekh通过重新生成证书，docker-machine regenerate-certs我终于能够使docker在我的Windows 7计算机上工作，我希望这会有所帮助:)

— RK

@RK：谢谢你让我知道。如果有机会，我会尝试一下（不过可能要花一些时间，因为还有一些更高优先级的事情有待解决）。

— Aleksandr Blekh

8

尽管Docker映像现在越来越流行，但我个人发现Docker技术并不友好，即使对于高级用户也是如此。如果您可以使用非本地 VM映像并且可以使用Amazon Web Services（AWS）EC2，请考虑由Louis Aslett预先构建的针对R的数据科学项目映像。映像包含Ubuntu LTS，R和RStudio Server的最新版本（如果不是最新版本）。您可以在此处访问它们。

除了上面列出的主要组件之外，这些图像还包含许多内置的有用数据科学工具。例如，图像支持LaTeX，ODBC，OpenGL，Git，优化的数字库等。

— 亚历山大·布莱克（Aleksandr Blekh）
source

非常感谢您提及此选项。我一定会尝试的。但是，我需要一个具有与该AMI完全相同的图像，但可以在笔记本电脑上与VirtualBox一起运行。

— JeanVuda 2015年

我最近看了一个有关Docker的教程，对其进行了测试，发现它很容易理解。您觉得哪一部分不方便使用？

— 罗伯·史密斯

@JeanVids：非常欢迎。我了解您想要拥有本地VM的愿望-这就是我在计算机上尝试Docker的原因。如果我发现一个专注于数据科学的VirtualBox VM映像（希望基于R），我将通知您。

— Aleksandr Blekh

1

@RobertSmith：我明白。也许问题是我试图在Windows计算机上进行设置。无论如何，稍后我会尝试一下。感谢您的意见。

— Aleksandr Blekh

1

@AleksandrBlekh是的，这可能是主要问题。不幸的是，在Windows上安装这种东西时有很多问题。

— 罗伯·史密斯

5

您是否尝试过Cloudera的QuickStart VM？

http://www.cloudera.com/content/cloudera/zh-CN/downloads/quickstart_vms/cdh-5-3-x.html

我发现它非常容易运行，并且其中包括Mahout和Spark等开源软件。

— EmreSevinç
source

5

今天，我使用了来自https://github.com/sequenceiq/docker-spark的此存储库，并使用docker构建它。它是基于同一所有者的hadoop映像构建的docker映像。如果您使用spark，它有一个名为pyspark的python API http://spark.apache.org/docs/latest/api/python/

— 埃夫伦·库塔尔（Evren Kutar）
source