程序设计 apache-spark

19

这是其他论坛上从未有人回答过的其他人的问题的副本，因此我想在这里重新提问，因为我有同样的问题。（请参阅http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736）我已经在机器上正确安装了Spark，并且在使用./bin/pyspark作为我的python解释器时，能够使用pyspark模块运行python程序而不会出错。但是，当我尝试运行常规Python Shell时，当我尝试导入pyspark模块时，出现此错误： from pyspark import SparkContext 它说 "No module named pyspark". 我怎样才能解决这个问题？我是否需要设置环境变量以将Python指向pyspark标头/库/等？如果我的spark安装是/ spark /，我需要包括哪些pyspark路径？还是只能从pyspark解释器运行pyspark程序？

111 python apache-spark pyspark

12

用Spark加载CSV文件

我是Spark的新手，正在尝试使用Spark从文件读取CSV数据。这是我在做什么： sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() 我希望此调用可以给我列出文件的前两列，但出现此错误： File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range 尽管我的CSV文件不止一列。

110 python csv apache-spark pyspark

13

使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv，我正在尝试编写单个CSV，但是不能，它正在制作一个文件夹。需要一个Scala函数，该函数将采用路径和文件名之类的参数并写入该CSV文件。

108 scala csv apache-spark spark-csv

8

如何在Spark中覆盖输出目录

我有一个Spark Streaming应用程序，每分钟生成一个数据集。我需要保存/覆盖已处理数据的结果。当我尝试覆盖数据集org.apache.hadoop.mapred.FileAlreadyExistsException时，将停止执行。我设置了Spark属性set("spark.files.overwrite","true")，但是没有运气。如何从Spark覆盖或预删除文件？

107 apache-spark

8

将Spark DataFrame列转换为python列表

我在具有两列mvv和count的数据帧上工作。 +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | 我想获得两个包含mvv值和计数值的列表。就像是 mvv = [1,2,3,4] count = [5,9,3,1] 因此，我尝试了以下代码：第一行应返回python行列表。我想看第一个值： mvv_list = mvv_count_df.select('mvv').collect() firstvalue = mvv_list[0].getInt(0) 但是我在第二行收到一条错误消息： AttributeError：getInt

103 python apache-spark pyspark spark-dataframe

4

Spark Kill正在运行的应用程序

我有一个正在运行的Spark应用程序，该应用程序占据了所有我的其他应用程序都不会分配任何资源的核心。我做了一些快速研究，有人建议使用YARN kill或/ bin / spark-class终止命令。但是，我正在使用CDH版本，并且/ bin / spark-class甚至根本不存在，YARN kill应用程序也不起作用。谁能和我一起吗？

101 apache-spark yarn pyspark

14

如何在sc.textFile中代替HDFS加载本地文件

我正在关注很棒的Spark教程所以我试图在46m：00s加载，README.md但是失败了，我正在做的是： $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, maxMem=278302556 14/12/04 12:11:14 INFO storage.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 160.2 …

100 scala apache-spark

14

如何检查Spark数据框是否为空？

现在，我必须df.count > 0检查一下是否DataFrame为空。但这效率很低。有什么更好的方法吗？谢谢。 PS：我想检查一下是否为空，以便只保存DataFrame不为空的

100 apache-spark apache-spark-sql

5

如何在pyspark中将Dataframe列从String类型更改为Double类型

我有一个列为String的数据框。我想在PySpark中将列类型更改为Double type。以下是我的方法： toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 只是想知道，这是正确的方法，就像通过Logistic回归运行时一样，我遇到了一些错误，所以我想知道，这是麻烦的原因。

99 python apache-spark dataframe pyspark apache-spark-sql

10

使用无值过滤Pyspark数据框列

我正在尝试过滤具有None作为行值的PySpark数据框： df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 我可以使用字符串值正确过滤： df[df.dt_mvmt == '2016-03-31'] # some results here 但这失败了： df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 但是每个类别上肯定都有价值。这是怎么回事？

98 python apache-spark dataframe pyspark apache-spark-sql

7

如何创建具有指定架构的空DataFrame？

我想DataFrame在Scala中使用指定的架构创建。我尝试使用JSON读取（我的意思是读取空文件），但我认为这不是最佳实践。

94 scala apache-spark dataframe apache-spark-sql

10

如何在Windows上设置Spark？

我正在尝试在Windows上安装Apache Spark。经过一番搜索，我了解到我想要的是独立模式。我要下载哪些二进制文件才能在Windows中运行Apache Spark？我在spark下载页面上看到了hadoop和cdh的发行版。我在网络上没有对此的参考。对此的逐步指南受到高度赞赏。

93 windows apache-spark

14

Spark-提交应用程序时出现错误“必须在您的配置中设置主URL”

我有一个Spark应用程序，它在本地模式下运行没有问题，但是在提交到Spark集群时遇到了一些问题。错误消息如下： 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66) at org.apache.spark.scheduler.Task.run(Task.scala:89) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:745) Caused by: org.apache.spark.SparkException: A master URL …

93 scala apache-spark

5

在Spark Scala中重命名DataFrame的列名

我正在尝试转换DataFrameSpark-Scala 中a的所有标题/列名称。到目前为止，我想出了以下代码，该代码仅替换单个列名。 for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

2

进度条上的数字在spark-shell中是什么意思？

在我的火花壳中，执行函数时，如下所示的条目意味着什么？ [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

Questions tagged «apache-spark»