我想将数据框的字符串列转换为列表。我可以从Dataframe
API中找到RDD,因此我尝试先将其转换回RDD,然后再将toArray
功能应用于RDD。在这种情况下,长度和SQL都可以正常工作。但是,我从RDD得到的结果在每个像这样的元素周围都有方括号[A00001]
。我想知道是否有适当的方法可以将列转换为列表,也可以删除方括号。
任何建议,将不胜感激。谢谢!
Answers:
这应该返回包含单个列表的集合:
dataFrame.select("YOUR_COLUMN_NAME").rdd.map(r => r(0)).collect()
没有映射,您只会得到一个Row对象,其中包含数据库中的每一列。
请记住,这可能会为您提供任何类型的列表。如果要指定结果类型,可以在r => r(0).asInstanceOf[YOUR_TYPE]
映射中使用.asInstanceOf [YOUR_TYPE]
PS由于自动转换,您可以跳过该.rdd
部分。
collect().map(r => r(0))
-此命令有什么缺点吗?
我想了3种将特定列的值转换为List的可能方法。
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder.getOrCreate
import spark.implicits._ // for .toDF() method
val df = Seq(
("first", 2.0),
("test", 1.5),
("choose", 8.0)
).toDF("id", "val")
df.select("id").collect().map(_(0)).toList
// res9: List[Any] = List(one, two, three)
现在会发生什么?我们正在使用收集数据到Drivercollect()
并从每个记录中选择元素零。
这可能不是一个很好的方法,让我们用下一种方法进行改进。
df.select("id").rdd.map(r => r(0)).collect.toList
//res10: List[Any] = List(one, two, three)
效果如何?我们在工作人员之间分配了地图转换负载,而不是由单个驱动程序分配。
我知道rdd.map(r => r(0))
你似乎并不优雅。因此,让我们在下一种方法中解决它。
df.select("id").map(r => r.getString(0)).collect.toList
//res11: List[String] = List(one, two, three)
在这里,我们没有将DataFrame转换为RDD。看看由于DataFrame中的编码器问题,map
它不会接受r => r(0)
(或_(0)
)作为以前的方法。因此最终使用r => r.getString(0)
它,它将在下一版本的Spark中解决。
结论
所有选项都给出相同的输出,但是2和3有效,最后第3个有效且优雅(我认为)。
我知道给定和要求的答案都是针对Scala的,因此,我只是提供一些Python代码片段,以防PySpark用户感到好奇。语法类似于给定的答案,但是要正确弹出列表,我实际上必须在映射函数中第二次引用列名,并且不需要select语句。
即一个DataFrame,其中包含一个名为“ Raw”的列
为了将“原始”中的每个行值组合成一个列表,其中每个条目都是“原始”中的行值,我只需使用:
MyDataFrame.rdd.map(lambda x: x.Raw).collect()
sqlContext.sql(" select filename from tempTable").rdd.map(r => r(0)).collect.toList.foreach(out_streamfn.println) //remove brackets
它完美地工作
List<String> whatever_list = df.toJavaRDD().map(new Function<Row, String>() {
public String call(Row row) {
return row.getAs("column_name").toString();
}
}).collect();
logger.info(String.format("list is %s",whatever_list)); //verification
由于没有人用java(Real Programming Language)提供任何解决方案,待会儿再感谢我
更新的解决方案为您提供了一个列表:
dataFrame.select("YOUR_COLUMN_NAME").map(r => r.getString(0)).collect.toList