程序设计 apache-spark

5

我从GH开发大师构建了Spark 1.4，并且构建顺利。但是当我这样做时，bin/pyspark我得到了Python 2.7.9版本。我该如何更改？

91 python python-3.x apache-spark

12

java.io.IOException：在Hadoop二进制文件中找不到可执行文件null \ bin \ winutils.exe。在Windows 7上触发Eclipse

我无法spark在Scala IDE安装在（Maven Spark项目）中的简单作业上Windows 7 Spark核心依赖已被添加。 val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() 错误： 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not …

91 eclipse scala apache-spark

10

可以在没有Hadoop的情况下运行Apache Spark吗？

Spark和Hadoop之间有任何依赖关系吗？如果没有，当我在没有Hadoop的情况下运行Spark时，会缺少哪些功能吗？

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame组按降序排序（pyspark）

我正在使用pyspark（Python 2.7.9 / Spark 1.3.1）并有一个数据框GroupObject，我需要按降序对其进行过滤和排序。试图通过这段代码来实现。 group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) 但这会引发以下错误。 sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

12

Mac spark-shell错误初始化SparkContext

我试图在Mac OS Yosemite 10.10.5上使用以下命令启动spark 1.6.0（spark-1.6.0-bin-hadoop2.4） "./bin/spark-shell". 它具有以下错误。我也尝试安装不同版本的Spark，但是所有版本都有相同的错误。这是我第二次运行Spark。我以前的运行正常。 log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. Using Spark's repl log4j profile: org/apache/spark/log4j-defaults-repl.properties To adjust logging level use sc.setLogLevel("INFO") Welcome to ____ __ / __/__ ___ _____/ /__ …

87 apache-spark

1

在Apache Spark Web UI中“跳过阶段”是什么意思？

从我的Spark UI。跳过是什么意思？

87 apache-spark rdd

18

如何在Spark中设置驱动程序的python版本？

我使用的是spark 1.4.0-rc2，因此可以将Python 3与spark一起使用。如果添加export PYSPARK_PYTHON=python3到.bashrc文件，则可以与python 3交互运行spark。但是，如果要在本地模式下运行独立程序，则会收到错误消息： Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions 如何为驱动程序指定python版本？设置export PYSPARK_DRIVER_PYTHON=python3无效。

87 apache-spark pyspark

9

在Apache Spark中将Dataframe的列值提取为列表

我想将数据框的字符串列转换为列表。我可以从DataframeAPI中找到RDD，因此我尝试先将其转换回RDD，然后再将toArray功能应用于RDD。在这种情况下，长度和SQL都可以正常工作。但是，我从RDD得到的结果在每个像这样的元素周围都有方括号[A00001]。我想知道是否有适当的方法可以将列转换为列表，也可以删除方括号。任何建议，将不胜感激。谢谢！

86 scala apache-spark apache-spark-sql

8

为什么Spark作业因org.apache.spark.shuffle.MetadataFetchFailedException而失败：在推测模式下缺少shuffle 0的输出位置？

我正在以推测模式运行Spark作业。我有大约500个任务和大约500个1 GB gz压缩文件。我会继续处理每一项工作，执行1-2个任务，然后再执行数十次附加错误（阻止该工作完成）。 org.apache.spark.shuffle.MetadataFetchFailedException：缺少shuffle 0的输出位置知道这个问题的含义是什么，如何解决？ org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$1.apply(MapOutputTracker.scala:384) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$1.apply(MapOutputTracker.scala:381) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108) at scala.collection.TraversableLike$class.map(TraversableLike.scala:244) at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:108) at org.apache.spark.MapOutputTracker$.org$apache$spark$MapOutputTracker$$convertMapStatuses(MapOutputTracker.scala:380) at org.apache.spark.MapOutputTracker.getServerStatuses(MapOutputTracker.scala:176) at org.apache.spark.shuffle.hash.BlockStoreShuffleFetcher$.fetch(BlockStoreShuffleFetcher.scala:42) at org.apache.spark.shuffle.hash.HashShuffleReader.read(HashShuffleReader.scala:40) at org.apache.spark.rdd.ShuffledRDD.compute(ShuffledRDD.scala:92) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263) at org.apache.spark.rdd.RDD.iterator(RDD.scala:230) at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263) at org.apache.spark.rdd.RDD.iterator(RDD.scala:230) …

85 apache-spark

11

如何将DataFrame直接保存到Hive？

是否可以DataFrame直接将火花保存到Hive？我尝试过转换DataFrame为Rdd，然后另存为文本文件，然后在配置单元中加载。但我想知道我是否可以直接保存dataframe到蜂巢

85 scala apache-spark hive apache-spark-sql

2

如何调整Spark执行程序编号，内核和执行程序内存？

您从哪里开始调整上述参数。我们是从执行者的内存开始并获得执行者的数量，还是从内核开始并获得执行者编号。我点击了链接。但是有一个高水平的想法，但仍然不确定如何或在何处开始并得出最终结论。

84 apache-spark

8

如何将-D参数或环境变量传递给Spark作业？

我想在开发/生产环境中更改Spark作业的Typesafe配置。在我看来，完成此任务的最简单方法就是-Dconfig.resource=ENVNAME胜任这份工作。然后Typesafe配置库将为我完成这项工作。有没有办法将该选项直接传递给工作？还是有更好的方法在运行时更改作业配置？编辑：当我--conf "spark.executor.extraJavaOptions=-Dconfig.resource=dev"向spark-submit命令添加选项时，什么也没有发生。 Error: Unrecognized option '-Dconfig.resource=dev'.当我传递-Dconfig.resource=dev到spark-submit命令时，我得到了。

83 scala apache-spark

3

HashPartitioner如何工作？

我阅读了有关的文档HashPartitioner。不幸的是，除了API调用外，没有太多解释。我假设HashPartitioner基于键的哈希对分布式集进行分区。例如，如果我的数据是 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 因此，分区程序会将其放入不同的分区中，而相同的密钥位于同一分区中。但是我不明白构造函数参数的重要性 new HashPartitoner(numPartitions) //What does numPartitions do? 对于上述数据集，如果我这样做，结果将如何不同 new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) 那么HashPartitioner实际上如何工作？

82 scala apache-spark rdd partitioning

11

Spark错误-不支持的类文件主要版本

我正在尝试在Mac上安装Spark。我使用自制软件安装了spark 2.4.0和Scala。我已经在Anaconda环境中安装了PySpark，并且正在使用PyCharm进行开发。我已经导出到我的bash个人资料： export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH 但是我无法使其正常工作。我怀疑这是由于Java版本读取了回溯。我非常感谢您为解决此问题提供的帮助。如果有任何我可以提供的信息，那么请发表评论，这些信息除了回溯之外还有帮助。我收到以下错误： Traceback (most recent call last): File "<input>", line 4, in <module> File "/anaconda3/envs/coda/lib/python3.6/site-packages/pyspark/rdd.py", line 816, in collect sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) File "/anaconda3/envs/coda/lib/python3.6/site-packages/py4j/java_gateway.py", line 1257, in __call__ answer, self.gateway_client, self.target_id, self.name) File …

82 java python macos apache-spark pyspark

8

如何删除pyspark数据框中的列

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] 有两个id: bigint，我想删除一个。我能怎么做？

81 apache-spark apache-spark-sql pyspark

Questions tagged «apache-spark»