我试图找出PySpark中DataFrame的大小/形状。我看不到可以执行此操作的单个功能。
在Python中我可以做
data.shape()
PySpark是否有类似的功能。这是我目前的解决方案,但我正在寻找一个要素
row_number = data.count()
column_number = len(data.dtypes)
列数的计算不是理想的...
我试图找出PySpark中DataFrame的大小/形状。我看不到可以执行此操作的单个功能。
在Python中我可以做
data.shape()
PySpark是否有类似的功能。这是我目前的解决方案,但我正在寻找一个要素
row_number = data.count()
column_number = len(data.dtypes)
列数的计算不是理想的...
data.shape
NumPy和Pandas吗?shape
不是功能。
Answers:
print((df.count(), len(df.columns)))
对于较小的数据集更容易。
但是,如果数据集很大,则另一种方法是使用熊猫和箭头将数据框转换为熊猫df并调用形状
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
spark.conf.set("spark.sql.crossJoin.enabled", "true")
print(df.toPandas().shape)