Questions tagged «rdd»

弹性分布式数据集(RDD)是一种分布式内存抽象,它允许程序员在大型集群上执行内存中计算,同时保留诸如MapReduce之类的数据流模型的容错能力。


13
Spark-Repartition()与Coalesce()
根据Learning Spark 请记住,对数据重新分区是一项相当昂贵的操作。Spark还具有repartition()称为的优化版本,coalesce()可以避免数据移动,但前提是要减少RDD分区的数量。 我得到的一个区别是repartition()分区数可以增加/减少,但是coalesce()分区数只能减少。 如果分区分布在多台计算机上并coalesce()运行,那么如何避免数据移动?


2
Scala与Python的Spark性能
与Scala相比,我更喜欢Python。但是,由于Spark是用Scala原生编写的,出于明显的原因,我期望我的代码在Scala中的运行速度比Python版本快。 基于这个假设,我想学习和编写一些非常通用的预处理代码的Scala版本,用于大约1 GB的数据。数据选自Kaggle的SpringLeaf竞赛。只是为了概述数据(它包含1936个维度和145232行)。数据由各种类型组成,例如int,float,string,boolean。我正在使用8个内核中的6个进行Spark处理;minPartitions=6因此,我使用了每个内核都要处理的东西。 Scala代码 val input = sc.textFile("train.csv", minPartitions=6) val input2 = input.mapPartitionsWithIndex { (idx, iter) => if (idx == 0) iter.drop(1) else iter } val delim1 = "\001" def separateCols(line: String): Array[String] = { val line2 = line.replaceAll("true", "1") val line3 = line2.replaceAll("false", "0") val vals: Array[String] = line3.split(",") …

5
(为什么)我们需要调用缓存还是坚持使用RDD
从文本文件或集合(或另一个RDD)创建弹性分布式数据集(RDD)时,我们是否需要显式调用“缓存”或“持久”以将RDD数据存储到内存中?还是默认情况下,RDD数据是否以分布式方式存储在内存中? val textFile = sc.textFile("/user/emp.txt") 根据我的理解,在完成上述步骤之后,textFile是一个RDD,并且在节点的所有/某些内存中都可用。 如果是这样,为什么我们需要在textFile RDD上调用“缓存”或“持久”呢?
171 scala  apache-spark  rdd 


3
Apache Spark:map与mapPartitions?
RDD map和mapPartitions方法之间有什么区别?并且flatMap表现得像map还是喜欢mapPartitions?谢谢。 (edit),即两者之间在语义上或执行上有什么区别 def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) }, preservesPartitioning = true) } 和: def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = …


3
HashPartitioner如何工作?
我阅读了有关的文档HashPartitioner。不幸的是,除了API调用外,没有太多解释。我假设HashPartitioner基于键的哈希对分布式集进行分区。例如,如果我的数据是 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 因此,分区程序会将其放入不同的分区中,而相同的密钥位于同一分区中。但是我不明白构造函数参数的重要性 new HashPartitoner(numPartitions) //What does numPartitions do? 对于上述数据集,如果我这样做,结果将如何不同 new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) 那么HashPartitioner实际上如何工作?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.