Questions tagged «ipython»

3
Spark上IPython / Jupyter的问题(别名无法识别)
我正在设置一组VM,以在使用外出并花钱建立带有某些硬件的集群之前尝试使用Spark。快速说明:我是一名具有应用机器学习背景的学者,并且在数据科学领域有点工作。我使用这些工具进行计算,很少需要设置它们。 我已经创建了3个VM(1个主虚拟机,2个从虚拟机)并成功安装了Spark。一切似乎都按预期进行。我的问题在于创建一个Jupyter服务器,该服务器可以从不在群集计算机上运行的浏览器连接到。 我已经成功安装了Jupyter笔记本 ...并且可以运行。我添加了一个新的IPython配置文件,该配置文件使用Spark 连接到远程服务器。 现在的问题 命令 $ ipython --profile=pyspark 运行正常,它连接到Spark集群。然而, $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. 默认为default配置文件,而不是pyspark配置文件。 我的笔记本配置pyspark具有: c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'

1
避免在不同的python内核之间重新加载DataFrame
有没有一种方法可以在内存中保留变量(大表/数据框)并在多个ipython笔记本之间共享? 我会寻找某种在概念上类似于MATLAB的持久变量的东西。可以从多个单独的编辑器(笔记本)中调用自定义函数/库,并使该外部函数缓存某些结果(或大表)。 通常,我想避免重新加载使用频繁的表(该表是通过从笔记本调用的自定义库加载的),因为每当我开始新的分析时,读取它大约需要2-3分钟。

3
如何导出Jupyter笔记本的一个单元格?
我目前正在使用Jupyter笔记本/进行原型设计。我想在独立的iPython shell 上运行一些代码。 现在,我导出我的iPython代码(文件->下载为),然后在我的iPython中执行它(使用%run)。它可以工作,但是我只想导出一个单元格或一组单元格。因此,我只能运行在Jupyter笔记本中修改的内容。
10 ipython  jupyter 

3
如何在Python中对相同的值进行分组并计算其频率?
刚开始使用Python分析的新手,请谨慎:-)我找不到该问题的答案-抱歉,如果它已经在其他地方以其他格式回答了。 我有一个零售商店的交易数据的数据集。变量及其说明如下: section:商店的部分,str; prod_name:产品名称,str; 收据:发票编号,整数; 出纳员,出纳员的编号,整数; 成本:物料的成本,浮动; 日期,格式为MM / DD / YY,为str; 时间,格式为HH:MM:SS,为str; 收据对于单笔交易中购买的所有产品具有相同的价值,因此可用于确定单笔交易中购买的平均数量。 最好的方法是什么?我本质上是想使用groupby()按收据变量相同的出现来对收据变量进行分组,以便创建直方图。 在pandas DataFrame中处理数据。 编辑: 以下是一些带有标头的示例数据(prod_name实际上是一个十六进制数字): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 从该样本集中,我希望获得一个直方图,该直方图显示两次出现的收据102857(因为该人在一项交易中购买了两件物品)和一次出现的收据102856和102858。注意:我的数据集并不庞大,大约一百万行。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.