程序设计 pyspark-sql

13

我来自熊猫背景，习惯于将CSV文件中的数据读取到数据帧中，然后使用简单的命令将列名更改为有用的东西： df.columns = new_column_name_list 但是，这在使用sqlContext创建的pyspark数据帧中无效。我能想到的唯一解决方案是： df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt") oldSchema = df.schema for i,k in enumerate(oldSchema.fields): k.name = new_column_name_list[i] df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', delimiter='\t').load("data.txt", schema=oldSchema) 这基本上是两次定义变量，然后首先推断模式，然后重命名列名，然后使用更新后的模式再次加载数据框。有没有像我们在大熊猫中那样做的更好，更有效的方法？我的Spark版本是1.5.0

201 python apache-spark pyspark pyspark-sql

9

在pyspark数据框中显示不同的列值：python

请为Pandas建议pyspark数据框替代方案df['col'].unique()。我想在pyspark dataframe列中列出所有唯一值。不是SQL类型的方式（先注册模板，然后通过SQL查询不同的值）。另外，我不需要groupby->countDistinct，相反，我想检查该列中的不同值。

81 pyspark pyspark-sql

6

将pyspark字符串转换为日期格式

我有一个日期pyspark数据框，其中的字符串列格式为，MM-dd-yyyy并且尝试将其转换为日期列。我试过了： df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() 我得到一串空值。有人可以帮忙吗？

80 apache-spark pyspark apache-spark-sql pyspark-sql

Questions tagged «pyspark-sql»