Questions tagged «pyspark-sql»

13
如何在pyspark中更改数据框列名称?
我来自熊猫背景,习惯于将CSV文件中的数据读取到数据帧中,然后使用简单的命令将列名更改为有用的东西: df.columns = new_column_name_list 但是,这在使用sqlContext创建的pyspark数据帧中无效。我能想到的唯一解决方案是: df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt") oldSchema = df.schema for i,k in enumerate(oldSchema.fields): k.name = new_column_name_list[i] df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', delimiter='\t').load("data.txt", schema=oldSchema) 这基本上是两次定义变量,然后首先推断模式,然后重命名列名,然后使用更新后的模式再次加载数据框。 有没有像我们在大熊猫中那样做的更好,更有效的方法? 我的Spark版本是1.5.0

9
在pyspark数据框中显示不同的列值:python
请为Pandas建议pyspark数据框替代方案df['col'].unique()。 我想在pyspark dataframe列中列出所有唯一值。 不是SQL类型的方式(先注册模板,然后通过SQL查询不同的值)。 另外,我不需要groupby->countDistinct,相反,我想检查该列中的不同值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.