程序设计 spark-dataframe

8

我在具有两列mvv和count的数据帧上工作。 +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | 我想获得两个包含mvv值和计数值的列表。就像是 mvv = [1,2,3,4] count = [5,9,3,1] 因此，我尝试了以下代码：第一行应返回python行列表。我想看第一个值： mvv_list = mvv_count_df.select('mvv').collect() firstvalue = mvv_list[0].getInt(0) 但是我在第二行收到一条错误消息： AttributeError：getInt

103 python apache-spark pyspark spark-dataframe

13

在Spark DataFrame写入方法中覆盖特定分区

我想覆盖特定的分区，而不是全部覆盖。我正在尝试以下命令： df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') 其中df是具有要覆盖的增量数据的数据帧。 hdfs-base-path包含主数据。当我尝试上述命令时，它将删除所有分区，并在hdfs路径中的df中插入这些分区。我的要求是只覆盖指定hdfs路径中df中存在的那些分区。有人可以帮我吗？

73 apache-spark apache-spark-sql spark-dataframe

5

在Spark中更新数据框列

查看新的spark数据框api，尚不清楚是否可以修改数据框列。我怎么会去改变行的值x列y一个数据帧的？在pandas这将是df.ix[x,y] = new_value 编辑：合并以下内容，您将无法修改现有数据框，因为它是不可变的，但是您可以返回具有所需修改的新数据框。如果您只想根据条件替换列中的值，例如np.where： from pyspark.sql import functions as F update_func = (F.when(F.col('update_col') == replace_val, new_value) .otherwise(F.col('update_col'))) df = df.withColumn('new_column_name', update_func) 如果要对列执行某些操作并创建一个添加到数据框的新列： import pyspark.sql.functions as F import pyspark.sql.types as T def my_func(col): do stuff to column here return transformed_value # if we assume that my_func returns a …

72 python apache-spark pyspark apache-spark-sql spark-dataframe

Questions tagged «spark-dataframe»