程序设计 apache-spark

将Python函数应用于Pandas分组的DataFrame-加快计算速度的最有效方法是什么？

我正在处理相当大的Pandas DataFrame-我的数据集类似于以下df设置： import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( repeats = [ R3, R4 ] ) R4 = 576720 # .repeat( repeats …

9 python pandas apache-spark parallel-processing dask

Spark：UDF执行多次

我有一个带有以下代码的数据框： def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) 现在检查日志，我发现每行UDF执行3次。如果我从“ test.three”列中添加“ test3”，则将再次执行UDF。有人可以解释我为什么吗？是否可以正确避免这种情况（即使添加了“测试”，也无需缓存数据框，即使这可行）？

9 scala apache-spark apache-spark-sql

Questions tagged «apache-spark»