5
在Spark中更新数据框列
查看新的spark数据框api,尚不清楚是否可以修改数据框列。 我怎么会去改变行的值x列y一个数据帧的? 在pandas这将是df.ix[x,y] = new_value 编辑:合并以下内容,您将无法修改现有数据框,因为它是不可变的,但是您可以返回具有所需修改的新数据框。 如果您只想根据条件替换列中的值,例如np.where: from pyspark.sql import functions as F update_func = (F.when(F.col('update_col') == replace_val, new_value) .otherwise(F.col('update_col'))) df = df.withColumn('new_column_name', update_func) 如果要对列执行某些操作并创建一个添加到数据框的新列: import pyspark.sql.functions as F import pyspark.sql.types as T def my_func(col): do stuff to column here return transformed_value # if we assume that my_func returns a …