Questions tagged «apache-spark»

Apache Spark是用Scala编写的开源分布式数据处理引擎,为用户提供了统一的API和分布式数据集。Apache Spark的用例通常与机器/深度学习,图处理有关。


12
java.io.IOException:在Hadoop二进制文件中找不到可执行文件null \ bin \ winutils.exe。在Windows 7上触发Eclipse
我无法spark在Scala IDE安装在(Maven Spark项目)中的简单作业上Windows 7 Spark核心依赖已被添加。 val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() 错误: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not …



12
Mac spark-shell错误初始化SparkContext
我试图在Mac OS Yosemite 10.10.5上使用以下命令启动spark 1.6.0(spark-1.6.0-bin-hadoop2.4) "./bin/spark-shell". 它具有以下错误。我也尝试安装不同版本的Spark,但是所有版本都有相同的错误。这是我第二次运行Spark。我以前的运行正常。 log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. Using Spark's repl log4j profile: org/apache/spark/log4j-defaults-repl.properties To adjust logging level use sc.setLogLevel("INFO") Welcome to ____ __ / __/__ ___ _____/ /__ …


18
如何在Spark中设置驱动程序的python版本?
我使用的是spark 1.4.0-rc2,因此可以将Python 3与spark一起使用。如果添加export PYSPARK_PYTHON=python3到.bashrc文件,则可以与python 3交互运行spark。但是,如果要在本地模式下运行独立程序,则会收到错误消息: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions 如何为驱动程序指定python版本?设置export PYSPARK_DRIVER_PYTHON=python3无效。

9
在Apache Spark中将Dataframe的列值提取为列表
我想将数据框的字符串列转换为列表。我可以从DataframeAPI中找到RDD,因此我尝试先将其转换回RDD,然后再将toArray功能应用于RDD。在这种情况下,长度和SQL都可以正常工作。但是,我从RDD得到的结果在每个像这样的元素周围都有方括号[A00001]。我想知道是否有适当的方法可以将列转换为列表,也可以删除方括号。 任何建议,将不胜感激。谢谢!

8
为什么Spark作业因org.apache.spark.shuffle.MetadataFetchFailedException而失败:在推测模式下缺少shuffle 0的输出位置?
我正在以推测模式运行Spark作业。我有大约500个任务和大约500个1 GB gz压缩文件。我会继续处理每一项工作,执行1-2个任务,然后再执行数十次附加错误(阻止该工作完成)。 org.apache.spark.shuffle.MetadataFetchFailedException:缺少shuffle 0的输出位置 知道这个问题的含义是什么,如何解决? org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$1.apply(MapOutputTracker.scala:384) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$1.apply(MapOutputTracker.scala:381) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108) at scala.collection.TraversableLike$class.map(TraversableLike.scala:244) at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:108) at org.apache.spark.MapOutputTracker$.org$apache$spark$MapOutputTracker$$convertMapStatuses(MapOutputTracker.scala:380) at org.apache.spark.MapOutputTracker.getServerStatuses(MapOutputTracker.scala:176) at org.apache.spark.shuffle.hash.BlockStoreShuffleFetcher$.fetch(BlockStoreShuffleFetcher.scala:42) at org.apache.spark.shuffle.hash.HashShuffleReader.read(HashShuffleReader.scala:40) at org.apache.spark.rdd.ShuffledRDD.compute(ShuffledRDD.scala:92) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263) at org.apache.spark.rdd.RDD.iterator(RDD.scala:230) at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263) at org.apache.spark.rdd.RDD.iterator(RDD.scala:230) …



8
如何将-D参数或环境变量传递给Spark作业?
我想在开发/生产环境中更改Spark作业的Typesafe配置。在我看来,完成此任务的最简单方法就是-Dconfig.resource=ENVNAME胜任这份工作。然后Typesafe配置库将为我完成这项工作。 有没有办法将该选项直接传递给工作?还是有更好的方法在运行时更改作业配置? 编辑: 当我--conf "spark.executor.extraJavaOptions=-Dconfig.resource=dev"向spark-submit命令添加选项时,什么也没有发生。 Error: Unrecognized option '-Dconfig.resource=dev'.当我传递-Dconfig.resource=dev到spark-submit命令时,我得到了。

3
HashPartitioner如何工作?
我阅读了有关的文档HashPartitioner。不幸的是,除了API调用外,没有太多解释。我假设HashPartitioner基于键的哈希对分布式集进行分区。例如,如果我的数据是 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 因此,分区程序会将其放入不同的分区中,而相同的密钥位于同一分区中。但是我不明白构造函数参数的重要性 new HashPartitoner(numPartitions) //What does numPartitions do? 对于上述数据集,如果我这样做,结果将如何不同 new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) 那么HashPartitioner实际上如何工作?

11
Spark错误-不支持的类文件主要版本
我正在尝试在Mac上安装Spark。我使用自制软件安装了spark 2.4.0和Scala。我已经在Anaconda环境中安装了PySpark,并且正在使用PyCharm进行开发。我已经导出到我的bash个人资料: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH 但是我无法使其正常工作。 我怀疑这是由于Java版本读取了回溯。我非常感谢您为解决此问题提供的帮助。如果有任何我可以提供的信息,那么请发表评论,这些信息除了回溯之外还有帮助。 我收到以下错误: Traceback (most recent call last): File "<input>", line 4, in <module> File "/anaconda3/envs/coda/lib/python3.6/site-packages/pyspark/rdd.py", line 816, in collect sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) File "/anaconda3/envs/coda/lib/python3.6/site-packages/py4j/java_gateway.py", line 1257, in __call__ answer, self.gateway_client, self.target_id, self.name) File …

8
如何删除pyspark数据框中的列
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] 有两个id: bigint,我想删除一个。我能怎么做?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.