我有一个Spark Streaming应用程序,每分钟生成一个数据集。我需要保存/覆盖已处理数据的结果。
当我尝试覆盖数据集org.apache.hadoop.mapred.FileAlreadyExistsException时,将停止执行。
我设置了Spark属性set("spark.files.overwrite","true")
,但是没有运气。
如何从Spark覆盖或预删除文件?
set("spark.files.overwrite","true")
仅适用于spark.addFile()