Spark上IPython / Jupyter的问题(别名无法识别)


11

我正在设置一组VM,以在使用外出并花钱建立带有某些硬件的集群之前尝试使用Spark。快速说明:我是一名具有应用机器学习背景的学者,并且在数据科学领域有点工作。我使用这些工具进行计算,很少需要设置它们。

我已经创建了3个VM(1个主虚拟机,2个从虚拟机)并成功安装了Spark。一切似乎都按预期进行。我的问题在于创建一个Jupyter服务器,该服务器可以从不在群集计算机上运行的浏览器连接到。

我已经成功安装了Jupyter笔记本 ...并且可以运行。我添加了一个新的IPython配置文件,该配置文件使用Spark 连接到远程服务器

现在的问题

命令

$ ipython --profile=pyspark 运行正常,它连接到Spark集群。然而,

$ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. 默认为default配置文件,而不是pyspark配置文件。

我的笔记本配置pyspark具有:

c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'


可能是这样的吗?$ ipython --profile=pyspark notebook?问题可能仅在于参数的顺序。
加博尔·巴科斯(GáborBakos)2015年

Answers:


12

IPython的现在已经搬到了4.0版本,这意味着,如果你使用它,它会读取它的配置~/.jupyter,没有~/.ipython。您必须使用以下命令创建一个新的配置文件

jupyter notebook --generate-config

然后~/.jupyter/jupyter_notebook_config.py根据需要编辑结果文件。

更多安装说明在这里


我经常想知道为什么他们在从ipython拆分jupyter时保留了ipython notebook命令。这就是为什么它变得真正令人困惑的原因。感谢您和kau zsh指出配置文件不匹配。几乎就像他们在使用ipython notebook命令时使用ipython配置文件,在使用该命令时使用jupyter-notebook配置文件一样。
AN6U5

4

假设您的配置文件是〜/ .ipython / profile_pyspark / ipython_notebook_config.py,您仍然可以通过以下方式使用此配置文件:

ipython notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

要么

jupyter-notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

1

问题是默认情况下pyspark不在操作系统路径上。在几次尝试将其手动添加到我的配置文件/ paths / etc中失败之后,我遇到了一个名为findspark的GitHub存储库。

https://github.com/minrk/findspark

我使用git clone https://github.com/minrk/findspark.git克隆了此存储库

然后,我从findspark根目录运行“ pip install findspark”。

启动Jupyter笔记本,创建了新的Python3笔记本并添加了

导入findspark
导入os
findspark.init()
导入pyspark
sc = pyspark.SparkContext()

在findspark.init()之前,导入pyspark出现错误。

为了测试,我只是键入sc并返回:
pyspark.context.SparkContext在0x4526d30

现在都为我工作。


欢迎来到站点Anahita :)
Dawny33
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.