如何将.csv文件导入pyspark数据帧?我什至尝试在Pandas中读取csv文件,然后使用createDataFrame将其转换为spark数据框,但是它仍然显示一些错误。有人可以指导我吗?另外,请告诉我如何导入xlsx文件?我正在尝试将csv内容导入pandas数据帧,然后将其转换为spark数据帧,但是它显示错误:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
我的代码是:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)