Questions tagged «apache-spark»

Apache Spark是用Scala编写的开源分布式数据处理引擎,为用户提供了统一的API和分布式数据集。Apache Spark的用例通常与机器/深度学习,图处理有关。

19
在python shell中导入pyspark
这是其他论坛上从未有人回答过的其他人的问题的副本,因此我想在这里重新提问,因为我有同样的问题。(请参阅http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736) 我已经在机器上正确安装了Spark,并且在使用./bin/pyspark作为我的python解释器时,能够使用pyspark模块运行python程序而不会出错。 但是,当我尝试运行常规Python Shell时,当我尝试导入pyspark模块时,出现此错误: from pyspark import SparkContext 它说 "No module named pyspark". 我怎样才能解决这个问题?我是否需要设置环境变量以将Python指向pyspark标头/库/等?如果我的spark安装是/ spark /,我需要包括哪些pyspark路径?还是只能从pyspark解释器运行pyspark程序?

12
用Spark加载CSV文件
我是Spark的新手,正在尝试使用Spark从文件读取CSV数据。这是我在做什么: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() 我希望此调用可以给我列出文件的前两列,但出现此错误: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range 尽管我的CSV文件不止一列。

13
使用spark-csv编写单个CSV文件
我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但是不能,它正在制作一个文件夹。 需要一个Scala函数,该函数将采用路径和文件名之类的参数并写入该CSV文件。

8
如何在Spark中覆盖输出目录
我有一个Spark Streaming应用程序,每分钟生成一个数据集。我需要保存/覆盖已处理数据的结果。 当我尝试覆盖数据集org.apache.hadoop.mapred.FileAlreadyExistsException时,将停止执行。 我设置了Spark属性set("spark.files.overwrite","true"),但是没有运气。 如何从Spark覆盖或预删除文件?
107 apache-spark 

8
将Spark DataFrame列转换为python列表
我在具有两列mvv和count的数据帧上工作。 +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | 我想获得两个包含mvv值和计数值的列表。就像是 mvv = [1,2,3,4] count = [5,9,3,1] 因此,我尝试了以下代码:第一行应返回python行列表。我想看第一个值: mvv_list = mvv_count_df.select('mvv').collect() firstvalue = mvv_list[0].getInt(0) 但是我在第二行收到一条错误消息: AttributeError:getInt

4
Spark Kill正在运行的应用程序
我有一个正在运行的Spark应用程序,该应用程序占据了所有我的其他应用程序都不会分配任何资源的核心。 我做了一些快速研究,有人建议使用YARN kill或/ bin / spark-class终止命令。但是,我正在使用CDH版本,并且/ bin / spark-class甚至根本不存在,YARN kill应用程序也不起作用。 谁能和我一起吗?

14
如何在sc.textFile中代替HDFS加载本地文件
我正在关注很棒的Spark教程 所以我试图在46m:00s加载,README.md但是失败了,我正在做的是: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, maxMem=278302556 14/12/04 12:11:14 INFO storage.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 160.2 …


5
如何在pyspark中将Dataframe列从String类型更改为Double类型
我有一个列为String的数据框。我想在PySpark中将列类型更改为Double type。 以下是我的方法: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 只是想知道,这是正确的方法,就像通过Logistic回归运行时一样,我遇到了一些错误,所以我想知道,这是麻烦的原因。

10
使用无值过滤Pyspark数据框列
我正在尝试过滤具有None作为行值的PySpark数据框: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 我可以使用字符串值正确过滤: df[df.dt_mvmt == '2016-03-31'] # some results here 但这失败了: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 但是每个类别上肯定都有价值。这是怎么回事?


10
如何在Windows上设置Spark?
我正在尝试在Windows上安装Apache Spark。 经过一番搜索,我了解到我想要的是独立模式。我要下载哪些二进制文件才能在Windows中运行Apache Spark?我在spark下载页面上看到了hadoop和cdh的发行版。 我在网络上没有对此的参考。对此的逐步指南受到高度赞赏。

14
Spark-提交应用程序时出现错误“必须在您的配置中设置主URL”
我有一个Spark应用程序,它在本地模式下运行没有问题,但是在提交到Spark集群时遇到了一些问题。 错误消息如下: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66) at org.apache.spark.scheduler.Task.run(Task.scala:89) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:745) Caused by: org.apache.spark.SparkException: A master URL …



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.