15
Spark中DataFrame,Dataset和RDD之间的区别
我只是想知道Apache Spark中的RDD和DataFrame (Spark 2.0.0 DataFrame是的唯一类型别名Dataset[Row])之间的区别是什么? 您可以将一个转换为另一个吗?
弹性分布式数据集(RDD)是一种分布式内存抽象,它允许程序员在大型集群上执行内存中计算,同时保留诸如MapReduce之类的数据流模型的容错能力。